DevToys Web Pro iconDevToys Web ProTinklaraštis
Įvertinkite mus:
Išbandykite naršyklės plėtinį:

Teksto ↔ Unicode keitiklis

Režimas
Formatas

Tekstas

  • Unikodas

  • Techninė informacija

    Kaip veikia teksto ↔ Unicode keitiklis

    Ką daro įrankis

    Teksto ↔ Unicode įrankis konvertuoja tekstą į ir iš Unicode kodo taškų keliomis notacijomis: U+XXXX, JavaScript „escape“ sekomis (\uXXXX arba \u{XXXXX}), dešimtaine, 0xHEX ir HTML skaitinėmis esybėmis (&#N; arba &#xHEX;). Dekoderis yra tolerantiškas — jis atpažįsta bet kokį šių notacijų derinį, įterptą tarp teksto, ir ištraukia kodo taškus. Enkoderis leidžia pasirinkti išvesties formatą ir skirtuką tarp kodo taškų.

    Dažniausi kūrėjų naudojimo atvejai

    Frontend programuotojai naudoja įrankį, kad paverstų jaustukus ir CJK simbolius į saugias ASCII „escape“ sekas JSON failams, išeities kodui ar perdavimui per ribojančius kanalus. Lokalizacijos inžinieriai patikrina tikslius kodo taškus, naudojamus išverstoje eilutėje. Įrankis taip pat naudingas aptinkant nematomus ar panašiai atrodančius simbolius (homoglifus, nulinio pločio jungiklius, RTL žymes), pasislėpusius nukopijuotame fragmente.

    Duomenų formatai, tipai arba variantai

    Unicode standarto notacija yra U+XXXX pagrindinei daugiakalbei plokštumai (BMP) ir U+XXXXX papildomoms plokštumoms. JavaScript „escape“ naudoja \uXXXX BMP atveju ir \u{XXXXX} (ES2015+) visam diapazonui. HTML priima skaitines esybes (dešimtaines &#N; arba šešioliktaines &#xN;). Paprasti dešimtainiai ir 0xHEX formatai grįžtamai konvertuojami per codePointAt / fromCodePoint be papildomos interpretacijos. Astraliniai simboliai (jaustukai, pvz., 🌍) vaizduojami kaip vienas kodo taškas virš U+FFFF.

    Dažniausios klaidos ir kraštiniai atvejai

    Astralinių simbolių negalima išreikšti senesne \uXXXX forma, nes kiekviena „escape“ seka turi tik 4 šešioliktainius skaitmenis — naudokite \u{...} arba surogatinę porą. Kodo taškai virš U+10FFFF yra negaliojantys pagal Unicode specifikaciją ir bus atmesti. Kombinuojantys diakritiniai ženklai ir jaustukų ZWJ sekos pasirodo kaip keli kodo taškai, nors atvaizduojami kaip vienas glifas. Dekoderis neinterpretuos HTML vardinių esybių (©, &) — tam naudokite specialų HTML dekoderį.

    Kada naudoti šį įrankį, o kada kodą

    Naudokite naršyklės įrankį greitai peržiūrai, „escape“ sekų generavimui ir homoglifų paieškai. Kode rinkitės kalbos gimtąsias eilučių API (`String.fromCodePoint`, `Array.from(str)` kodo taškų iteracijai JS; `chr` ir `ord` Python; `Character.toCodePoint` Java) bei pilnas ICU bibliotekas, kai reikia normalizavimo (NFC/NFD), raidžių registro suvienodinimo (case folding) ar grafemų klasterių segmentavimo.