テキスト ↔ Unicode 変換
テキスト
Unicode
技術的な詳細
テキスト ↔ Unicode 変換ツールの仕組み
このツールでできること
Text ↔ Unicode ツールは、複数の表記法(U+XXXX、JavaScript エスケープ(\uXXXX または \u{XXXXX})、10進数、0xHEX、HTML 数値文字参照(&#N; または &#xHEX;))で、テキストを Unicode コードポイントへ/から変換します。デコーダは寛容で、テキストに混在するこれらの表記の任意の組み合わせを認識し、コードポイントを抽出します。エンコーダでは、出力形式とコードポイント間の区切り文字を選べます。
開発者によくある利用シーン
フロントエンド開発者は、絵文字や CJK 文字を JSON ファイルやソースコード向け、または制約のある経路での送信向けに、安全な ASCII のエスケープシーケンスへ変換するためにこのツールを使います。ローカリゼーションエンジニアは、翻訳文字列で使用されている正確なコードポイントを検証します。また、コピーしたスニペットの中に紛れ込んだ不可視文字や見た目が似た文字(ホモグリフ、ゼロ幅接合子、RTL マーク)を見つけるのにも役立ちます。
データ形式、型、またはバリエーション
Unicode の標準表記は、基本多言語面(BMP)では U+XXXX、補助平面では U+XXXXX です。JavaScript のエスケープは BMP では \uXXXX、全範囲では \u{XXXXX}(ES2015+)を使います。HTML は数値文字参照(10進の &#N; または16進の &#xN;)を受け付けます。単純な10進数と 0xHEX 形式は、追加の解釈なしに codePointAt / fromCodePoint で往復できます。アストラル文字(🌍 のような絵文字)は、U+FFFF を超える単一のコードポイントとして表されます。
よくある落とし穴とエッジケース
アストラル文字は古い \uXXXX 形式では表現できません。各エスケープが16進4桁しかないためです。\u{...} またはサロゲートペアを使用してください。U+10FFFF を超えるコードポイントは Unicode 仕様上無効であり、拒否されます。結合文字や絵文字の ZWJ シーケンスは、見た目は1つのグリフとして描画されても、複数のコードポイントとして現れます。デコーダは HTML の名前付き実体(©、&)は解釈しません。これらには専用の HTML デコーダを使用してください。
コードではなくこのツールを使うべき場面
ブラウザツールは、素早い確認、エスケープシーケンス生成、ホモグリフ探索に使ってください。コードでは、言語ネイティブの文字列 API(JS の `String.fromCodePoint`、コードポイント反復のための `Array.from(str)`、Python の `chr` と `ord`、Java の `Character.toCodePoint`)を優先し、正規化(NFC/NFD)、ケースフォールディング、書記素クラスタ分割が必要な場合は完全な ICU ライブラリを使ってください。