DevToys Web Pro iconDevToys Web ProBlog
Ocenite nas:
Preizkusite razširitev brskalnika:

Pretvornik besedilo ↔ Unicode

Način
Oblika

Besedilo

  • Unicode

  • Tehnične podrobnosti

    Kako deluje pretvornik Besedilo ↔ Unicode

    Kaj orodje počne

    Orodje Besedilo ↔ Unicode pretvarja besedilo v Unicode kodne točke in nazaj v več zapisih: U+XXXX, ubežni zapisi JavaScript (\uXXXX ali \u{XXXXX}), decimalno, 0xHEX in številske entitete HTML (&#N; ali &#xHEX;). Dekoder je prizanesljiv — prepozna poljubno kombinacijo teh zapisov, prepleteno z besedilom, in izlušči kodne točke. Kodirnik vam omogoča izbiro izhodnega formata in ločila med kodnimi točkami.

    Pogosti primeri uporabe za razvijalce

    Frontend razvijalci uporabljajo orodje za pretvorbo emojijev in znakov CJK v varne ubežne zaporedja ASCII za datoteke JSON, izvorno kodo ali prenos prek omejujočih kanalov. Inženirji za lokalizacijo preverjajo natančne kodne točke, uporabljene v prevedenem nizu. Orodje je uporabno tudi za odkrivanje nevidnih ali podobnih znakov (homoglifi, združevalniki ničelne širine, oznake RTL), skritih v kopiranem izseku.

    Podatkovni formati, tipi ali različice

    Standardni zapis Unicode je U+XXXX za osnovno večjezično ravnino (BMP) in U+XXXXX za dodatne ravnine. Ubežni zapisi JavaScript uporabljajo \uXXXX za BMP in \u{XXXXX} (ES2015+) za celoten obseg. HTML sprejema številske entitete (decimalno &#N; ali šestnajstiško &#xN;). Navadni decimalni in 0xHEX formati se brez dodatne interpretacije pretvorijo nazaj prek codePointAt / fromCodePoint. Astralni znaki (emoji, kot je 🌍) so predstavljeni kot ena kodna točka nad U+FFFF.

    Pogoste pasti in robni primeri

    Astralnih znakov ni mogoče izraziti s starejšo obliko \uXXXX, ker ima vsak ubežni zapis le 4 šestnajstiške števke — uporabite \u{...} ali nadomestni par. Kodne točke nad U+10FFFF so po specifikaciji Unicode neveljavne in bodo zavrnjene. Kombinirni znaki in emoji zaporedja ZWJ se pojavijo kot več kodnih točk, čeprav se izrišejo kot en glif. Dekoder ne interpretira poimenovanih entitet HTML (©, &) — za to uporabite namenski dekoder HTML.

    Kdaj uporabiti to orodje namesto kode

    Uporabite orodje v brskalniku za hitro pregledovanje, generiranje ubežnih zaporedij in lov na homoglifie. V kodi raje uporabite izvorne API-je za nize v jeziku (`String.fromCodePoint`, `Array.from(str)` za iteracijo po kodnih točkah v JS; `chr` in `ord` v Pythonu; `Character.toCodePoint` v Javi) ter polne knjižnice ICU, ko potrebujete normalizacijo (NFC/NFD), zlaganje velikosti črk (case folding) ali segmentacijo grozdov grafemov.