What output formats are supported?

U+XXXX (Unicode standard), \uXXXX or \u{XXXXX} (JavaScript escapes), decimal, 0xHEX, and HTML numeric entities &#N; / &#xN;. The decoder accepts any of these mixed in the same input.

Yes. Emojis are mostly above U+FFFF, so they use 5-digit hex (U+1F30D, \u{1F30D}, etc.) The tool emits the correct astral form automatically.

Will HTML named entities like & decode?

No — only numeric entities (A or A) are decoded here. For named entities use the HTML Encoder/Decoder tool.

Конвертер Текст ↔ Unicode

Режим

Формат

Текст

Юникод

U+0048 U+0065 U+006C U+006C U+006F U+0021 U+0020 U+1F30D

Технические детали

Как работает конвертер Текст ↔ Unicode

Что делает инструмент

Инструмент «Текст ↔ Unicode» преобразует текст в кодовые точки Unicode и обратно в нескольких нотациях: U+XXXX, экранирования JavaScript (\uXXXX или \u{XXXXX}), десятичная, 0xHEX и числовые HTML-сущности (&#N; или &#xHEX;). Декодер работает «с допусками» — он распознаёт любую комбинацию этих нотаций, перемешанную с текстом, и извлекает кодовые точки. Энкодер позволяет выбрать формат вывода и разделитель между кодовыми точками.

Распространенные сценарии использования для разработчиков

Фронтенд-разработчики используют инструмент, чтобы переводить эмодзи и CJK-символы в безопасные ASCII-последовательности экранирования для JSON-файлов, исходного кода или передачи по ограничивающим каналам. Инженеры локализации проверяют точные кодовые точки, использованные в переведённой строке. Инструмент также полезен для обнаружения невидимых или похожих символов (гомоглифов, соединителей нулевой ширины, RTL-меток), скрывающихся внутри скопированного фрагмента.

Форматы данных, типы или варианты

Стандартная нотация Unicode — U+XXXX для базовой многоязычной плоскости (BMP) и U+XXXXX для дополнительных плоскостей. Экранирования JavaScript используют \uXXXX для BMP и \u{XXXXX} (ES2015+) для полного диапазона. HTML принимает числовые сущности (десятичные &#N; или шестнадцатеричные &#xN;). Форматы «просто десятичный» и 0xHEX корректно проходят преобразование туда-обратно через codePointAt / fromCodePoint без дополнительной интерпретации. Астральные символы (эмодзи вроде 🌍) представлены одной кодовой точкой выше U+FFFF.

Распространенные ошибки и крайние случаи

Астральные символы нельзя выразить старой формой \uXXXX, потому что каждое экранирование содержит только 4 шестнадцатеричных цифры — используйте \u{...} или суррогатную пару. Кодовые точки выше U+10FFFF недопустимы по спецификации Unicode и будут отклонены. Комбинирующие знаки и эмодзи-последовательности ZWJ выглядят как несколько кодовых точек, хотя отображаются как один глиф. Декодер не интерпретирует именованные HTML-сущности (©, &) — для них используйте отдельный HTML-декодер.

Когда использовать этот инструмент, а когда — код

Используйте браузерный инструмент для быстрой проверки, генерации escape-последовательностей и поиска гомоглифов. В коде предпочитайте нативные API строк языка (`String.fromCodePoint`, `Array.from(str)` для итерации по кодовым точкам в JS; `chr` и `ord` в Python; `Character.toCodePoint` в Java) плюс полноценные ICU-библиотеки, когда нужна нормализация (NFC/NFD), case folding или сегментация по кластерам графем.