Tekst ↔ Unicode teisendaja
Tekst
Unicode
Tehnilised üksikasjad
Kuidas teksti ↔ Unicode'i teisendaja töötab
Mida tööriist teeb
Teksti ↔ Unicode'i tööriist teisendab teksti Unicode'i koodipunktideks ja tagasi mitmes tähistuses: U+XXXX, JavaScripti paokoodid (\uXXXX või \u{XXXXX}), kümnendarv, 0xHEX ja HTML-i numbrilised entiteedid (&#N; või &#xHEX;). Dekooder on leebe — see tunneb ära nende tähistuste mis tahes kombinatsiooni, mis on tekstiga läbisegi, ja eraldab koodipunktid. Kodeerija võimaldab valida väljundvormingu ja koodipunktide vahelise eraldaja.
Levinud kasutusjuhtumid arendajatele
Frontend-arendajad kasutavad tööriista emoji ja CJK-märkide teisendamiseks turvalisteks ASCII paojadadeks JSON-failide, lähtekoodi või piiravate kanalite kaudu edastamise jaoks. Lokaliseerimisinsenerid kontrollivad tõlgitud stringis kasutatud täpseid koodipunkte. Tööriist on abiks ka nähtamatute või sarnase välimusega märkide (homoglüüfid, null-laiusega liitjad, RTL-märgid) tuvastamisel, mis võivad olla peidus kopeeritud lõigus.
Andmevormingud, tüübid või variandid
Unicode'i standardtähistus on U+XXXX põhilise mitmekeelse tasandi (BMP) jaoks ja U+XXXXX lisatasandite jaoks. JavaScripti paokoodid kasutavad BMP jaoks \uXXXX ja kogu vahemiku jaoks \u{XXXXX} (ES2015+). HTML aktsepteerib numbrilisi entiteete (kümnend &#N; või kuueteistkümnend &#xN;). Tavaline kümnend- ja 0xHEX-vorming käib edasi-tagasi läbi codePointAt / fromCodePoint ilma täiendava tõlgenduseta. Astraalsed märgid (emoji nagu 🌍) esitatakse ühe koodipunktina üle U+FFFF.
Levinud komistuskivid ja erijuhud
Astraalseid märke ei saa väljendada vanema \uXXXX-vormiga, sest iga paokood on ainult 4 kuueteistkümnendkoha pikkune — kasuta \u{...} või surrogaatpaari. Koodipunktid üle U+10FFFF on Unicode'i spetsifikatsiooni järgi vigased ja lükatakse tagasi. Kombineerivad märgid ja emoji ZWJ-jadad ilmuvad mitme koodipunktina, kuigi renderduvad ühe glüüfina. Dekooder ei tõlgenda HTML-i nimega entiteete (©, &) — nende jaoks kasuta eraldi HTML-i dekoodrit.
Millal kasutada seda tööriista vs koodi
Kasuta brauseritööriista kiireks kontrolliks, paojadade genereerimiseks ja homoglüüfide jahtimiseks. Koodis eelista keele natiivseid stringi-API-sid (`String.fromCodePoint`, `Array.from(str)` koodipunktide kaupa itereerimiseks JS-is; `chr` ja `ord` Pythonis; `Character.toCodePoint` Javas) ning täisväärtuslikke ICU teeke, kui vajad normaliseerimist (NFC/NFD), tõstutundetusmuundust või grafeemiklastri segmentimist.