What output formats are supported?

U+XXXX (Unicode standard), \uXXXX or \u{XXXXX} (JavaScript escapes), decimal, 0xHEX, and HTML numeric entities &#N; / &#xN;. The decoder accepts any of these mixed in the same input.

Yes. Emojis are mostly above U+FFFF, so they use 5-digit hex (U+1F30D, \u{1F30D}, etc.) The tool emits the correct astral form automatically.

Will HTML named entities like & decode?

No — only numeric entities (A or A) are decoded here. For named entities use the HTML Encoder/Decoder tool.

Teksta ↔ Unicode pārveidotājs

Režīms

Formāts

Teksts

Unikods

U+0048 U+0065 U+006C U+006C U+006F U+0021 U+0020 U+1F30D

Tehniskā informācija

Kā darbojas teksta ↔ Unicode pārveidotājs

Ko rīks dara

Rīks Teksts ↔ Unicode pārveido tekstu uz un no Unicode koda punktiem vairākās notācijās: U+XXXX, JavaScript aizbēgšanas sekvences (\uXXXX vai \u{XXXXX}), decimālā, 0xHEX un HTML skaitliskās entītijas (&#N; vai &#xHEX;). Dekodētājs ir pielaidīgs — tas atpazīst jebkuru šo notāciju kombināciju, kas mijas ar tekstu, un izvelk koda punktus. Kodētājs ļauj izvēlēties izvades formātu un atdalītāju starp koda punktiem.

Biežākie izstrādātāju lietošanas gadījumi

Frontend izstrādātāji izmanto rīku, lai pārvērstu emocijzīmes un CJK rakstzīmes drošās ASCII aizbēgšanas sekvencēs JSON failiem, pirmkodam vai pārsūtīšanai pa ierobežojošiem kanāliem. Lokalizācijas inženieri pārbauda precīzos koda punktus, kas izmantoti tulkotā virknē. Rīks ir noderīgs arī neredzamu vai līdzīgu rakstzīmju (homoglifu, nulles platuma savienotāju, RTL atzīmju) atklāšanai, kas paslēpušās iekopētā fragmentā.

Datu formāti, tipi vai varianti

Unicode standarta notācija ir U+XXXX pamata daudzvalodu plaknei un U+XXXXX papildu plaknēm. JavaScript aizbēgšanas sekvences izmanto \uXXXX BMP un \u{XXXXX} (ES2015+) visam diapazonam. HTML pieņem skaitliskās entītijas (decimālās &#N; vai heksadecimālās &#xN;). Vienkāršais decimālais un 0xHEX formāts veic pilnu apļceļu caur codePointAt / fromCodePoint bez papildu interpretācijas. Astrālās rakstzīmes (emocijzīmes, piemēram, 🌍) tiek attēlotas kā viens koda punkts virs U+FFFF.

Biežākās kļūdas un robežgadījumi

Astrālās rakstzīmes nevar izteikt ar vecāko \uXXXX formu, jo katra aizbēgšanas sekvence ir tikai 4 heksadecimālie cipari — izmantojiet \u{...} vai surogātpāri. Koda punkti virs U+10FFFF ir nederīgi saskaņā ar Unicode specifikāciju un tiks noraidīti. Kombinējošās zīmes un emocijzīmju ZWJ sekvences parādās kā vairāki koda punkti, lai gan tās tiek renderētas kā viens glifs. Dekodētājs neinterpretēs HTML nosauktās entītijas (©, &) — tām izmantojiet atsevišķu HTML dekodētāju.

Kad izmantot šo rīku, nevis kodu

Izmantojiet pārlūka rīku ātrai pārbaudei, aizbēgšanas sekvenču ģenerēšanai un homoglifu meklēšanai. Kodā dodiet priekšroku valodā iebūvētajiem virkņu API (`String.fromCodePoint`, `Array.from(str)` koda punktu iterācijai JS; `chr` un `ord` Python; `Character.toCodePoint` Java), kā arī pilnām ICU bibliotēkām, kad nepieciešama normalizācija (NFC/NFD), reģistra salāgošana vai grafēmu klasteru segmentēšana.