What output formats are supported?

U+XXXX (Unicode standard), \uXXXX or \u{XXXXX} (JavaScript escapes), decimal, 0xHEX, and HTML numeric entities &#N; / &#xN;. The decoder accepts any of these mixed in the same input.

Yes. Emojis are mostly above U+FFFF, so they use 5-digit hex (U+1F30D, \u{1F30D}, etc.) The tool emits the correct astral form automatically.

Will HTML named entities like & decode?

No — only numeric entities (A or A) are decoded here. For named entities use the HTML Encoder/Decoder tool.

Pretvarač Tekst ↔ Unicode

Način

Format

Tekst

Unicode

U+0048 U+0065 U+006C U+006C U+006F U+0021 U+0020 U+1F30D

Tehnički detalji

Kako radi pretvarač Tekst ↔ Unicode

Što alat radi

Alat Tekst ↔ Unicode pretvara tekst u Unicode kodne točke i iz njih u više zapisa: U+XXXX, JavaScript escape sekvence (\uXXXX ili \u{XXXXX}), decimalno, 0xHEX i HTML numeričke entitete (&#N; ili &#xHEX;). Dekoder je tolerantan — prepoznaje bilo koju kombinaciju tih zapisa isprepletenu s tekstom i izdvaja kodne točke. Enkoder vam omogućuje odabir izlaznog formata i razdjelnika između kodnih točaka.

Uobičajeni slučajevi upotrebe za razvojne programere

Frontend razvojni inženjeri koriste alat za pretvaranje emojija i CJK znakova u sigurne ASCII escape sekvence za JSON datoteke, izvorni kod ili prijenos preko restriktivnih kanala. Inženjeri lokalizacije provjeravaju točne kodne točke korištene u prevedenom nizu. Alat je također koristan za otkrivanje nevidljivih ili sličnih znakova (homoglifi, spojnici nulte širine, RTL oznake) skrivenih u kopiranom isječku.

Formati podataka, vrste ili varijante

Standardna Unicode notacija je U+XXXX za Osnovnu višejezičnu ravninu (BMP) i U+XXXXX za dopunske ravnine. JavaScript escape sekvence koriste \uXXXX za BMP i \u{XXXXX} (ES2015+) za cijeli raspon. HTML prihvaća numeričke entitete (decimalno &#N; ili heksadekadski &#xN;). Obični decimalni i 0xHEX formati prolaze round-trip kroz codePointAt / fromCodePoint bez dodatne interpretacije. Astralni znakovi (emoji poput 🌍) predstavljeni su kao jedna kodna točka iznad U+FFFF.

Uobičajene zamke i rubni slučajevi

Astralni znakovi ne mogu se izraziti starijim oblikom \uXXXX jer svaka escape sekvenca ima samo 4 heksadekadske znamenke — koristite \u{...} ili surogatni par. Kodne točke iznad U+10FFFF nevažeće su prema Unicode specifikaciji i bit će odbijene. Kombinirajuće oznake i emoji ZWJ sekvence pojavljuju se kao više kodnih točaka iako se prikazuju kao jedan glif. Dekoder neće interpretirati HTML imenovane entitete (©, &) — za to koristite namjenski HTML dekoder.

Kada koristiti ovaj alat umjesto koda

Koristite alat u pregledniku za brzu provjeru, generiranje escape sekvenci i lov na homoglifie. U kodu preferirajte izvorne API-je jezika za rad s nizovima (`String.fromCodePoint`, `Array.from(str)` za iteraciju po kodnim točkama u JS-u; `chr` i `ord` u Pythonu; `Character.toCodePoint` u Javi) te pune ICU biblioteke kada trebate normalizaciju (NFC/NFD), presavijanje velikih/malih slova (case folding) ili segmentaciju grafemskih klastera.