文本 ↔ Unicode 转换器
文本
Unicode
技术详情
文本 ↔ Unicode 转换器的工作原理
工具功能
文本 ↔ Unicode 工具可在多种表示法之间将文本与 Unicode 码点相互转换:U+XXXX、JavaScript 转义(\uXXXX 或 \u{XXXXX})、十进制、0xHEX,以及 HTML 数字实体(&#N; 或 &#xHEX;)。解码器较为宽松——它能识别夹杂在文本中的任意组合表示法并提取码点。编码器允许你选择输出格式以及码点之间的分隔符。
常见开发者使用场景
前端开发者使用该工具将表情符号和中日韩(CJK)字符转换为安全的 ASCII 转义序列,用于 JSON 文件、源代码或在受限通道中传输。本地化工程师用它核对译文字符串中使用的确切码点。该工具也有助于发现复制片段中隐藏的不可见或外观相似字符(同形异义字符、零宽连接符、RTL 标记)。
数据格式、类型或变体
Unicode 标准表示法在基本多文种平面使用 U+XXXX,在补充平面使用 U+XXXXX。JavaScript 转义在 BMP 使用 \uXXXX,在全范围使用 \u{XXXXX}(ES2015+)。HTML 接受数字实体(十进制 &#N; 或十六进制 &#xN;)。纯十进制与 0xHEX 格式可通过 codePointAt / fromCodePoint 往返转换而无需进一步解释。星界字符(如 🌍 这类 emoji)表示为一个高于 U+FFFF 的单一码点。
常见陷阱与边界情况
星界字符无法用较旧的 \uXXXX 形式表示,因为每个转义只有 4 位十六进制数字——请使用 \u{...} 或代理项对。高于 U+10FFFF 的码点按 Unicode 规范无效,将被拒绝。组合附加符号与 emoji 的 ZWJ 序列会显示为多个码点,即使它们渲染为单个字形。解码器不会解析 HTML 命名实体(©、&)——这些请使用专门的 HTML 解码器。
何时使用此工具而非代码
在需要快速检查、生成转义序列以及查找同形字符时使用浏览器工具。在代码中,优先使用语言原生的字符串 API(JS 中用于按码点迭代的 `String.fromCodePoint`、`Array.from(str)`;Python 中的 `chr` 和 `ord`;Java 中的 `Character.toCodePoint`),并在需要规范化(NFC/NFD)、大小写折叠或字素簇分割时使用完整的 ICU 库。