What output formats are supported?

U+XXXX (Unicode standard), \uXXXX or \u{XXXXX} (JavaScript escapes), decimal, 0xHEX, and HTML numeric entities &#N; / &#xN;. The decoder accepts any of these mixed in the same input.

Yes. Emojis are mostly above U+FFFF, so they use 5-digit hex (U+1F30D, \u{1F30D}, etc.) The tool emits the correct astral form automatically.

Will HTML named entities like & decode?

No — only numeric entities (A or A) are decoded here. For named entities use the HTML Encoder/Decoder tool.

Конвертер Текст ↔ Unicode

Режим

Формат

Текст

Юнікод

U+0048 U+0065 U+006C U+006C U+006F U+0021 U+0020 U+1F30D

Технічні деталі

Як працює конвертер Текст ↔ Unicode

Що робить інструмент

Інструмент Текст ↔ Unicode перетворює текст у кодові точки Unicode і назад у кількох нотаціях: U+XXXX, екранування JavaScript (\uXXXX або \u{XXXXX}), десятковий формат, 0xHEX та числові HTML-сутності (&#N; або &#xHEX;). Декодер є поблажливим — він розпізнає будь-яку комбінацію цих нотацій, перемішаних із текстом, і витягує кодові точки. Енкодер дозволяє вибрати формат виводу та роздільник між кодовими точками.

Поширені сценарії використання для розробників

Frontend-розробники використовують інструмент, щоб перетворювати емодзі та CJK-символи на безпечні ASCII-послідовності екранування для JSON-файлів, вихідного коду або передавання через обмежувальні канали. Інженери з локалізації перевіряють точні кодові точки, використані в перекладеному рядку. Інструмент також корисний для виявлення невидимих або схожих символів (гомогліфів, з’єднувачів нульової ширини, RTL-міток), що ховаються всередині скопійованого фрагмента.

Формати даних, типи або варіанти

Стандартна нотація Unicode — U+XXXX для базової багатомовної площини та U+XXXXX для додаткових площин. Екранування JavaScript використовують \uXXXX для BMP і \u{XXXXX} (ES2015+) для всього діапазону. HTML приймає числові сутності (десяткові &#N; або шістнадцяткові &#xN;). Звичайні десятковий і 0xHEX формати коректно проходять перетворення туди-назад через codePointAt / fromCodePoint без додаткової інтерпретації. Астральні символи (емодзі на кшталт 🌍) подаються як одна кодова точка вище U+FFFF.

Поширені помилки та крайові випадки

Астральні символи не можна виразити старішою формою \uXXXX, оскільки кожне екранування має лише 4 шістнадцяткові цифри — використовуйте \u{...} або сурогатну пару. Кодові точки вище U+10FFFF є недійсними за специфікацією Unicode і будуть відхилені. Комбінувальні діакритики та емодзі-послідовності ZWJ відображаються як кілька кодових точок, хоча візуально рендеряться як один гліф. Декодер не інтерпретує іменовані HTML-сутності (©, &) — для них використовуйте окремий HTML-декодер.

Коли використовувати цей інструмент, а коли — код

Використовуйте браузерний інструмент для швидкого огляду, генерації escape-послідовностей і пошуку гомогліфів. У коді надавайте перевагу нативним API рядків мови (`String.fromCodePoint`, `Array.from(str)` для ітерації за кодовими точками в JS; `chr` і `ord` у Python; `Character.toCodePoint` у Java) плюс повним бібліотекам ICU, коли потрібні нормалізація (NFC/NFD), згортання регістру або сегментація графемних кластерів.