Teksta ↔ Unicode pārveidotājs
Teksts
Unikods
Tehniskā informācija
Kā darbojas teksta ↔ Unicode pārveidotājs
Ko rīks dara
Rīks Teksts ↔ Unicode pārveido tekstu uz un no Unicode koda punktiem vairākās notācijās: U+XXXX, JavaScript aizbēgšanas sekvences (\uXXXX vai \u{XXXXX}), decimālā, 0xHEX un HTML skaitliskās entītijas (&#N; vai &#xHEX;). Dekodētājs ir pielaidīgs — tas atpazīst jebkuru šo notāciju kombināciju, kas mijas ar tekstu, un izvelk koda punktus. Kodētājs ļauj izvēlēties izvades formātu un atdalītāju starp koda punktiem.
Biežākie izstrādātāju lietošanas gadījumi
Frontend izstrādātāji izmanto rīku, lai pārvērstu emocijzīmes un CJK rakstzīmes drošās ASCII aizbēgšanas sekvencēs JSON failiem, pirmkodam vai pārsūtīšanai pa ierobežojošiem kanāliem. Lokalizācijas inženieri pārbauda precīzos koda punktus, kas izmantoti tulkotā virknē. Rīks ir noderīgs arī neredzamu vai līdzīgu rakstzīmju (homoglifu, nulles platuma savienotāju, RTL atzīmju) atklāšanai, kas paslēpušās iekopētā fragmentā.
Datu formāti, tipi vai varianti
Unicode standarta notācija ir U+XXXX pamata daudzvalodu plaknei un U+XXXXX papildu plaknēm. JavaScript aizbēgšanas sekvences izmanto \uXXXX BMP un \u{XXXXX} (ES2015+) visam diapazonam. HTML pieņem skaitliskās entītijas (decimālās &#N; vai heksadecimālās &#xN;). Vienkāršais decimālais un 0xHEX formāts veic pilnu apļceļu caur codePointAt / fromCodePoint bez papildu interpretācijas. Astrālās rakstzīmes (emocijzīmes, piemēram, 🌍) tiek attēlotas kā viens koda punkts virs U+FFFF.
Biežākās kļūdas un robežgadījumi
Astrālās rakstzīmes nevar izteikt ar vecāko \uXXXX formu, jo katra aizbēgšanas sekvence ir tikai 4 heksadecimālie cipari — izmantojiet \u{...} vai surogātpāri. Koda punkti virs U+10FFFF ir nederīgi saskaņā ar Unicode specifikāciju un tiks noraidīti. Kombinējošās zīmes un emocijzīmju ZWJ sekvences parādās kā vairāki koda punkti, lai gan tās tiek renderētas kā viens glifs. Dekodētājs neinterpretēs HTML nosauktās entītijas (©, &) — tām izmantojiet atsevišķu HTML dekodētāju.
Kad izmantot šo rīku, nevis kodu
Izmantojiet pārlūka rīku ātrai pārbaudei, aizbēgšanas sekvenču ģenerēšanai un homoglifu meklēšanai. Kodā dodiet priekšroku valodā iebūvētajiem virkņu API (`String.fromCodePoint`, `Array.from(str)` koda punktu iterācijai JS; `chr` un `ord` Python; `Character.toCodePoint` Java), kā arī pilnām ICU bibliotēkām, kad nepieciešama normalizācija (NFC/NFD), reģistra salāgošana vai grafēmu klasteru segmentēšana.