Конвертер Текст ↔ Unicode
Текст
Юнікод
Технічні деталі
Як працює конвертер Текст ↔ Unicode
Що робить інструмент
Інструмент Текст ↔ Unicode перетворює текст у кодові точки Unicode і назад у кількох нотаціях: U+XXXX, екранування JavaScript (\uXXXX або \u{XXXXX}), десятковий формат, 0xHEX та числові HTML-сутності (&#N; або &#xHEX;). Декодер є поблажливим — він розпізнає будь-яку комбінацію цих нотацій, перемішаних із текстом, і витягує кодові точки. Енкодер дозволяє вибрати формат виводу та роздільник між кодовими точками.
Поширені сценарії використання для розробників
Frontend-розробники використовують інструмент, щоб перетворювати емодзі та CJK-символи на безпечні ASCII-послідовності екранування для JSON-файлів, вихідного коду або передавання через обмежувальні канали. Інженери з локалізації перевіряють точні кодові точки, використані в перекладеному рядку. Інструмент також корисний для виявлення невидимих або схожих символів (гомогліфів, з’єднувачів нульової ширини, RTL-міток), що ховаються всередині скопійованого фрагмента.
Формати даних, типи або варіанти
Стандартна нотація Unicode — U+XXXX для базової багатомовної площини та U+XXXXX для додаткових площин. Екранування JavaScript використовують \uXXXX для BMP і \u{XXXXX} (ES2015+) для всього діапазону. HTML приймає числові сутності (десяткові &#N; або шістнадцяткові &#xN;). Звичайні десятковий і 0xHEX формати коректно проходять перетворення туди-назад через codePointAt / fromCodePoint без додаткової інтерпретації. Астральні символи (емодзі на кшталт 🌍) подаються як одна кодова точка вище U+FFFF.
Поширені помилки та крайові випадки
Астральні символи не можна виразити старішою формою \uXXXX, оскільки кожне екранування має лише 4 шістнадцяткові цифри — використовуйте \u{...} або сурогатну пару. Кодові точки вище U+10FFFF є недійсними за специфікацією Unicode і будуть відхилені. Комбінувальні діакритики та емодзі-послідовності ZWJ відображаються як кілька кодових точок, хоча візуально рендеряться як один гліф. Декодер не інтерпретує іменовані HTML-сутності (©, &) — для них використовуйте окремий HTML-декодер.
Коли використовувати цей інструмент, а коли — код
Використовуйте браузерний інструмент для швидкого огляду, генерації escape-послідовностей і пошуку гомогліфів. У коді надавайте перевагу нативним API рядків мови (`String.fromCodePoint`, `Array.from(str)` для ітерації за кодовими точками в JS; `chr` і `ord` у Python; `Character.toCodePoint` у Java) плюс повним бібліотекам ICU, коли потрібні нормалізація (NFC/NFD), згортання регістру або сегментація графемних кластерів.