DevToys Web Pro iconDevToys Web ProБлог
Оцініть нас:
Спробуйте розширення для браузера:

Конвертер Текст ↔ Unicode

Режим
Формат

Текст

  • Юнікод

  • Технічні деталі

    Як працює конвертер Текст ↔ Unicode

    Що робить інструмент

    Інструмент Текст ↔ Unicode перетворює текст у кодові точки Unicode і назад у кількох нотаціях: U+XXXX, екранування JavaScript (\uXXXX або \u{XXXXX}), десятковий формат, 0xHEX та числові HTML-сутності (&#N; або &#xHEX;). Декодер є поблажливим — він розпізнає будь-яку комбінацію цих нотацій, перемішаних із текстом, і витягує кодові точки. Енкодер дозволяє вибрати формат виводу та роздільник між кодовими точками.

    Поширені сценарії використання для розробників

    Frontend-розробники використовують інструмент, щоб перетворювати емодзі та CJK-символи на безпечні ASCII-послідовності екранування для JSON-файлів, вихідного коду або передавання через обмежувальні канали. Інженери з локалізації перевіряють точні кодові точки, використані в перекладеному рядку. Інструмент також корисний для виявлення невидимих або схожих символів (гомогліфів, з’єднувачів нульової ширини, RTL-міток), що ховаються всередині скопійованого фрагмента.

    Формати даних, типи або варіанти

    Стандартна нотація Unicode — U+XXXX для базової багатомовної площини та U+XXXXX для додаткових площин. Екранування JavaScript використовують \uXXXX для BMP і \u{XXXXX} (ES2015+) для всього діапазону. HTML приймає числові сутності (десяткові &#N; або шістнадцяткові &#xN;). Звичайні десятковий і 0xHEX формати коректно проходять перетворення туди-назад через codePointAt / fromCodePoint без додаткової інтерпретації. Астральні символи (емодзі на кшталт 🌍) подаються як одна кодова точка вище U+FFFF.

    Поширені помилки та крайові випадки

    Астральні символи не можна виразити старішою формою \uXXXX, оскільки кожне екранування має лише 4 шістнадцяткові цифри — використовуйте \u{...} або сурогатну пару. Кодові точки вище U+10FFFF є недійсними за специфікацією Unicode і будуть відхилені. Комбінувальні діакритики та емодзі-послідовності ZWJ відображаються як кілька кодових точок, хоча візуально рендеряться як один гліф. Декодер не інтерпретує іменовані HTML-сутності (©, &) — для них використовуйте окремий HTML-декодер.

    Коли використовувати цей інструмент, а коли — код

    Використовуйте браузерний інструмент для швидкого огляду, генерації escape-послідовностей і пошуку гомогліфів. У коді надавайте перевагу нативним API рядків мови (`String.fromCodePoint`, `Array.from(str)` для ітерації за кодовими точками в JS; `chr` і `ord` у Python; `Character.toCodePoint` у Java) плюс повним бібліотекам ICU, коли потрібні нормалізація (NFC/NFD), згортання регістру або сегментація графемних кластерів.