Teksto ↔ Unicode keitiklis
Tekstas
Unikodas
Techninė informacija
Kaip veikia teksto ↔ Unicode keitiklis
Ką daro įrankis
Teksto ↔ Unicode įrankis konvertuoja tekstą į ir iš Unicode kodo taškų keliomis notacijomis: U+XXXX, JavaScript „escape“ sekomis (\uXXXX arba \u{XXXXX}), dešimtaine, 0xHEX ir HTML skaitinėmis esybėmis (&#N; arba &#xHEX;). Dekoderis yra tolerantiškas — jis atpažįsta bet kokį šių notacijų derinį, įterptą tarp teksto, ir ištraukia kodo taškus. Enkoderis leidžia pasirinkti išvesties formatą ir skirtuką tarp kodo taškų.
Dažniausi kūrėjų naudojimo atvejai
Frontend programuotojai naudoja įrankį, kad paverstų jaustukus ir CJK simbolius į saugias ASCII „escape“ sekas JSON failams, išeities kodui ar perdavimui per ribojančius kanalus. Lokalizacijos inžinieriai patikrina tikslius kodo taškus, naudojamus išverstoje eilutėje. Įrankis taip pat naudingas aptinkant nematomus ar panašiai atrodančius simbolius (homoglifus, nulinio pločio jungiklius, RTL žymes), pasislėpusius nukopijuotame fragmente.
Duomenų formatai, tipai arba variantai
Unicode standarto notacija yra U+XXXX pagrindinei daugiakalbei plokštumai (BMP) ir U+XXXXX papildomoms plokštumoms. JavaScript „escape“ naudoja \uXXXX BMP atveju ir \u{XXXXX} (ES2015+) visam diapazonui. HTML priima skaitines esybes (dešimtaines &#N; arba šešioliktaines &#xN;). Paprasti dešimtainiai ir 0xHEX formatai grįžtamai konvertuojami per codePointAt / fromCodePoint be papildomos interpretacijos. Astraliniai simboliai (jaustukai, pvz., 🌍) vaizduojami kaip vienas kodo taškas virš U+FFFF.
Dažniausios klaidos ir kraštiniai atvejai
Astralinių simbolių negalima išreikšti senesne \uXXXX forma, nes kiekviena „escape“ seka turi tik 4 šešioliktainius skaitmenis — naudokite \u{...} arba surogatinę porą. Kodo taškai virš U+10FFFF yra negaliojantys pagal Unicode specifikaciją ir bus atmesti. Kombinuojantys diakritiniai ženklai ir jaustukų ZWJ sekos pasirodo kaip keli kodo taškai, nors atvaizduojami kaip vienas glifas. Dekoderis neinterpretuos HTML vardinių esybių (©, &) — tam naudokite specialų HTML dekoderį.
Kada naudoti šį įrankį, o kada kodą
Naudokite naršyklės įrankį greitai peržiūrai, „escape“ sekų generavimui ir homoglifų paieškai. Kode rinkitės kalbos gimtąsias eilučių API (`String.fromCodePoint`, `Array.from(str)` kodo taškų iteracijai JS; `chr` ir `ord` Python; `Character.toCodePoint` Java) bei pilnas ICU bibliotekas, kai reikia normalizavimo (NFC/NFD), raidžių registro suvienodinimo (case folding) ar grafemų klasterių segmentavimo.