DevToys Web Pro iconDevToys Web ProБлог
Оцените нас:
Попробуйте расширение для браузера:

Конвертер Текст ↔ Unicode

Режим
Формат

Текст

  • Юникод

  • Технические детали

    Как работает конвертер Текст ↔ Unicode

    Что делает инструмент

    Инструмент «Текст ↔ Unicode» преобразует текст в кодовые точки Unicode и обратно в нескольких нотациях: U+XXXX, экранирования JavaScript (\uXXXX или \u{XXXXX}), десятичная, 0xHEX и числовые HTML-сущности (&#N; или &#xHEX;). Декодер работает «с допусками» — он распознаёт любую комбинацию этих нотаций, перемешанную с текстом, и извлекает кодовые точки. Энкодер позволяет выбрать формат вывода и разделитель между кодовыми точками.

    Распространенные сценарии использования для разработчиков

    Фронтенд-разработчики используют инструмент, чтобы переводить эмодзи и CJK-символы в безопасные ASCII-последовательности экранирования для JSON-файлов, исходного кода или передачи по ограничивающим каналам. Инженеры локализации проверяют точные кодовые точки, использованные в переведённой строке. Инструмент также полезен для обнаружения невидимых или похожих символов (гомоглифов, соединителей нулевой ширины, RTL-меток), скрывающихся внутри скопированного фрагмента.

    Форматы данных, типы или варианты

    Стандартная нотация Unicode — U+XXXX для базовой многоязычной плоскости (BMP) и U+XXXXX для дополнительных плоскостей. Экранирования JavaScript используют \uXXXX для BMP и \u{XXXXX} (ES2015+) для полного диапазона. HTML принимает числовые сущности (десятичные &#N; или шестнадцатеричные &#xN;). Форматы «просто десятичный» и 0xHEX корректно проходят преобразование туда-обратно через codePointAt / fromCodePoint без дополнительной интерпретации. Астральные символы (эмодзи вроде 🌍) представлены одной кодовой точкой выше U+FFFF.

    Распространенные ошибки и крайние случаи

    Астральные символы нельзя выразить старой формой \uXXXX, потому что каждое экранирование содержит только 4 шестнадцатеричных цифры — используйте \u{...} или суррогатную пару. Кодовые точки выше U+10FFFF недопустимы по спецификации Unicode и будут отклонены. Комбинирующие знаки и эмодзи-последовательности ZWJ выглядят как несколько кодовых точек, хотя отображаются как один глиф. Декодер не интерпретирует именованные HTML-сущности (©, &) — для них используйте отдельный HTML-декодер.

    Когда использовать этот инструмент, а когда — код

    Используйте браузерный инструмент для быстрой проверки, генерации escape-последовательностей и поиска гомоглифов. В коде предпочитайте нативные API строк языка (`String.fromCodePoint`, `Array.from(str)` для итерации по кодовым точкам в JS; `chr` и `ord` в Python; `Character.toCodePoint` в Java) плюс полноценные ICU-библиотеки, когда нужна нормализация (NFC/NFD), case folding или сегментация по кластерам графем.