Convertisseur Texte ↔ Unicode
Texte
Unicode
Détails techniques
Comment fonctionne le convertisseur Texte ↔ Unicode
Ce que fait l’outil
L’outil Texte ↔ Unicode convertit du texte vers et depuis des points de code Unicode dans plusieurs notations : U+XXXX, échappements JavaScript (\uXXXX ou \u{XXXXX}), décimal, 0xHEX et entités numériques HTML (&#N; ou &#xHEX;). Le décodeur est permissif : il reconnaît toute combinaison de ces notations entremêlées avec du texte et extrait les points de code. L’encodeur vous permet de choisir le format de sortie et un séparateur entre les points de code.
Cas d’usage courants pour les développeurs
Les développeurs frontend utilisent l’outil pour traduire des emoji et des caractères CJK en séquences d’échappement ASCII sûres pour des fichiers JSON, du code source ou un transport via des canaux restrictifs. Les ingénieurs en localisation vérifient les points de code exacts utilisés dans une chaîne traduite. L’outil est aussi utile pour repérer des caractères invisibles ou ressemblants (homoglyphes, joiners de largeur nulle, marques RTL) cachés dans un extrait copié.
Formats de données, types ou variantes
La notation standard Unicode est U+XXXX pour le plan multilingue de base (BMP) et U+XXXXX pour les plans supplémentaires. Les échappements JavaScript utilisent \uXXXX pour le BMP et \u{XXXXX} (ES2015+) pour toute la plage. HTML accepte les entités numériques (décimal &#N; ou hexadécimal &#xN;). Les formats décimal simple et 0xHEX font un aller-retour via codePointAt / fromCodePoint sans interprétation supplémentaire. Les caractères astrals (des emoji comme 🌍) sont représentés par un seul point de code au-dessus de U+FFFF.
Pièges courants et cas limites
Les caractères astrals ne peuvent pas être exprimés avec l’ancienne forme \uXXXX, car chaque échappement ne contient que 4 chiffres hexadécimaux — utilisez \u{...} ou une paire de substituts. Les points de code au-dessus de U+10FFFF sont invalides selon la spécification Unicode et seront rejetés. Les marques combinatoires et les séquences d’emoji ZWJ apparaissent comme plusieurs points de code même si elles s’affichent comme un seul glyphe. Le décodeur n’interprète pas les entités nommées HTML (©, &) — utilisez un décodeur HTML dédié pour celles-ci.
Quand utiliser cet outil plutôt que du code
Utilisez l’outil du navigateur pour une inspection rapide, la génération de séquences d’échappement et la chasse aux homoglyphes. Dans le code, privilégiez les API de chaînes natives du langage (`String.fromCodePoint`, `Array.from(str)` pour l’itération par point de code en JS ; `chr` et `ord` en Python ; `Character.toCodePoint` en Java) ainsi que des bibliothèques ICU complètes lorsque vous avez besoin de normalisation (NFC/NFD), de repliement de casse ou de segmentation en clusters de graphèmes.