What output formats are supported?

U+XXXX (Unicode standard), \uXXXX or \u{XXXXX} (JavaScript escapes), decimal, 0xHEX, and HTML numeric entities &#N; / &#xN;. The decoder accepts any of these mixed in the same input.

Yes. Emojis are mostly above U+FFFF, so they use 5-digit hex (U+1F30D, \u{1F30D}, etc.) The tool emits the correct astral form automatically.

Will HTML named entities like & decode?

No — only numeric entities (A or A) are decoded here. For named entities use the HTML Encoder/Decoder tool.

Convertisseur Texte ↔ Unicode

Mode

Format

Texte

Unicode

U+0048 U+0065 U+006C U+006C U+006F U+0021 U+0020 U+1F30D

Détails techniques

Comment fonctionne le convertisseur Texte ↔ Unicode

Ce que fait l’outil

L’outil Texte ↔ Unicode convertit du texte vers et depuis des points de code Unicode dans plusieurs notations : U+XXXX, échappements JavaScript (\uXXXX ou \u{XXXXX}), décimal, 0xHEX et entités numériques HTML (&#N; ou &#xHEX;). Le décodeur est permissif : il reconnaît toute combinaison de ces notations entremêlées avec du texte et extrait les points de code. L’encodeur vous permet de choisir le format de sortie et un séparateur entre les points de code.

Cas d’usage courants pour les développeurs

Les développeurs frontend utilisent l’outil pour traduire des emoji et des caractères CJK en séquences d’échappement ASCII sûres pour des fichiers JSON, du code source ou un transport via des canaux restrictifs. Les ingénieurs en localisation vérifient les points de code exacts utilisés dans une chaîne traduite. L’outil est aussi utile pour repérer des caractères invisibles ou ressemblants (homoglyphes, joiners de largeur nulle, marques RTL) cachés dans un extrait copié.

Formats de données, types ou variantes

La notation standard Unicode est U+XXXX pour le plan multilingue de base (BMP) et U+XXXXX pour les plans supplémentaires. Les échappements JavaScript utilisent \uXXXX pour le BMP et \u{XXXXX} (ES2015+) pour toute la plage. HTML accepte les entités numériques (décimal &#N; ou hexadécimal &#xN;). Les formats décimal simple et 0xHEX font un aller-retour via codePointAt / fromCodePoint sans interprétation supplémentaire. Les caractères astrals (des emoji comme 🌍) sont représentés par un seul point de code au-dessus de U+FFFF.

Pièges courants et cas limites

Les caractères astrals ne peuvent pas être exprimés avec l’ancienne forme \uXXXX, car chaque échappement ne contient que 4 chiffres hexadécimaux — utilisez \u{...} ou une paire de substituts. Les points de code au-dessus de U+10FFFF sont invalides selon la spécification Unicode et seront rejetés. Les marques combinatoires et les séquences d’emoji ZWJ apparaissent comme plusieurs points de code même si elles s’affichent comme un seul glyphe. Le décodeur n’interprète pas les entités nommées HTML (©, &) — utilisez un décodeur HTML dédié pour celles-ci.

Quand utiliser cet outil plutôt que du code

Utilisez l’outil du navigateur pour une inspection rapide, la génération de séquences d’échappement et la chasse aux homoglyphes. Dans le code, privilégiez les API de chaînes natives du langage (`String.fromCodePoint`, `Array.from(str)` pour l’itération par point de code en JS ; `chr` et `ord` en Python ; `Character.toCodePoint` en Java) ainsi que des bibliothèques ICU complètes lorsque vous avez besoin de normalisation (NFC/NFD), de repliement de casse ou de segmentation en clusters de graphèmes.