DevToys Web Pro iconDevToys Web ProBlog
Oceń nas:
Wypróbuj rozszerzenie przeglądarki:

Konwerter tekst ↔ Unicode

Tryb
Format

Tekst

  • Unicode

  • Szczegóły techniczne

    Jak działa konwerter Tekst ↔ Unicode

    Co robi narzędzie

    Narzędzie Tekst ↔ Unicode konwertuje tekst na i z punktów kodowych Unicode w wielu notacjach: U+XXXX, sekwencje ucieczki JavaScript (\uXXXX lub \u{XXXXX}), dziesiętna, 0xHEX oraz numeryczne encje HTML (&#N; lub &#xHEX;). Dekoder jest tolerancyjny — rozpoznaje dowolną kombinację tych notacji przeplataną tekstem i wyodrębnia punkty kodowe. Koder pozwala wybrać format wyjściowy oraz separator między punktami kodowymi.

    Typowe zastosowania dla programistów

    Programiści frontendowi używają narzędzia do zamiany emoji i znaków CJK na bezpieczne sekwencje ucieczki ASCII dla plików JSON, kodu źródłowego lub transmisji przez restrykcyjne kanały. Inżynierowie lokalizacji weryfikują dokładne punkty kodowe użyte w przetłumaczonym ciągu. Narzędzie jest też pomocne w wykrywaniu niewidocznych lub podobnie wyglądających znaków (homoglify, łączniki o zerowej szerokości, znaczniki RTL) ukrytych w skopiowanym fragmencie.

    Formaty danych, typy lub warianty

    Standardowa notacja Unicode to U+XXXX dla Podstawowej Płaszczyzny Wielojęzycznej oraz U+XXXXX dla płaszczyzn dodatkowych. Sekwencje ucieczki JavaScript używają \uXXXX dla BMP oraz \u{XXXXX} (ES2015+) dla pełnego zakresu. HTML akceptuje numeryczne encje (dziesiętne &#N; lub szesnastkowe &#xN;). Zwykły zapis dziesiętny i 0xHEX przechodzą w obie strony przez codePointAt / fromCodePoint bez dodatkowej interpretacji. Znaki astralne (emoji takie jak 🌍) są reprezentowane jako pojedynczy punkt kodowy powyżej U+FFFF.

    Typowe pułapki i przypadki brzegowe

    Znaków astralnych nie da się wyrazić starszą formą \uXXXX, ponieważ każda sekwencja ma tylko 4 cyfry szesnastkowe — użyj \u{...} albo pary surogatów. Punkty kodowe powyżej U+10FFFF są nieprawidłowe według specyfikacji Unicode i zostaną odrzucone. Znaki łączące oraz sekwencje emoji ZWJ występują jako wiele punktów kodowych, mimo że renderują się jako pojedynczy glif. Dekoder nie interpretuje nazwanych encji HTML (©, &) — do tego użyj dedykowanego dekodera HTML.

    Kiedy używać tego narzędzia zamiast kodu

    Użyj narzędzia w przeglądarce do szybkiej inspekcji, generowania sekwencji ucieczki i polowania na homoglif y. W kodzie preferuj natywne API łańcuchów znaków danego języka (`String.fromCodePoint`, `Array.from(str)` do iteracji po punktach kodowych w JS; `chr` i `ord` w Pythonie; `Character.toCodePoint` w Javie) oraz pełne biblioteki ICU, gdy potrzebujesz normalizacji (NFC/NFD), składania wielkości liter (case folding) lub segmentacji klastrów grafemów.