Конвертер Текст ↔ Unicode
Текст
Юникод
Технические детали
Как работает конвертер Текст ↔ Unicode
Что делает инструмент
Инструмент «Текст ↔ Unicode» преобразует текст в кодовые точки Unicode и обратно в нескольких нотациях: U+XXXX, экранирования JavaScript (\uXXXX или \u{XXXXX}), десятичная, 0xHEX и числовые HTML-сущности (&#N; или &#xHEX;). Декодер работает «с допусками» — он распознаёт любую комбинацию этих нотаций, перемешанную с текстом, и извлекает кодовые точки. Энкодер позволяет выбрать формат вывода и разделитель между кодовыми точками.
Распространенные сценарии использования для разработчиков
Фронтенд-разработчики используют инструмент, чтобы переводить эмодзи и CJK-символы в безопасные ASCII-последовательности экранирования для JSON-файлов, исходного кода или передачи по ограничивающим каналам. Инженеры локализации проверяют точные кодовые точки, использованные в переведённой строке. Инструмент также полезен для обнаружения невидимых или похожих символов (гомоглифов, соединителей нулевой ширины, RTL-меток), скрывающихся внутри скопированного фрагмента.
Форматы данных, типы или варианты
Стандартная нотация Unicode — U+XXXX для базовой многоязычной плоскости (BMP) и U+XXXXX для дополнительных плоскостей. Экранирования JavaScript используют \uXXXX для BMP и \u{XXXXX} (ES2015+) для полного диапазона. HTML принимает числовые сущности (десятичные &#N; или шестнадцатеричные &#xN;). Форматы «просто десятичный» и 0xHEX корректно проходят преобразование туда-обратно через codePointAt / fromCodePoint без дополнительной интерпретации. Астральные символы (эмодзи вроде 🌍) представлены одной кодовой точкой выше U+FFFF.
Распространенные ошибки и крайние случаи
Астральные символы нельзя выразить старой формой \uXXXX, потому что каждое экранирование содержит только 4 шестнадцатеричных цифры — используйте \u{...} или суррогатную пару. Кодовые точки выше U+10FFFF недопустимы по спецификации Unicode и будут отклонены. Комбинирующие знаки и эмодзи-последовательности ZWJ выглядят как несколько кодовых точек, хотя отображаются как один глиф. Декодер не интерпретирует именованные HTML-сущности (©, &) — для них используйте отдельный HTML-декодер.
Когда использовать этот инструмент, а когда — код
Используйте браузерный инструмент для быстрой проверки, генерации escape-последовательностей и поиска гомоглифов. В коде предпочитайте нативные API строк языка (`String.fromCodePoint`, `Array.from(str)` для итерации по кодовым точкам в JS; `chr` и `ord` в Python; `Character.toCodePoint` в Java) плюс полноценные ICU-библиотеки, когда нужна нормализация (NFC/NFD), case folding или сегментация по кластерам графем.