HTMLタグを削除
HTML入力
プレーンテキスト出力
技術的な詳細
Strip HTML Tags ツールの仕組み
このツールでできること
Strip HTML Tags はテキストからすべてのHTMLマークアップを取り除き、表示される内容をプレーンテキストとして返します。開始タグと終了タグ、属性、自己終了タグ、コメント、入れ子構造を扱えます。オプションの動作として、一般的なHTMLエンティティ(&, ©, €)のデコード、ブロックレベルタグや br 要素での改行の保持、script と style ブロックを完全に除去して内容が出力に混入しないようにする機能があります。
開発者によくある利用シーン
Strip HTML Tags を使うと、リッチテキストのメールやCMSコンテンツをSMSダイジェスト向けにプレーンテキストへ変換したり、スクレイピングしたHTMLを検索インデックスに保存する前にサニタイズしたり、記事の可読部分を抽出して要約に使ったり、レンダリング済みのWebページからコピーしたクリップボードデータを整形したりできます。また、テキスト内容だけが重要な本番HTMLページからテスト用フィクスチャを作成する際にも役立ちます。
データ形式、型、またはバリエーション
入力はHTMLまたはXML風のマークアップで、出力はUTF-8のプレーンテキストです。€ や € のような数値文字参照は対応するUnicode文字にデコードされ、幅広い名前付きエンティティ(&, <, >, ", ', , ©, ®, ™, …, —, –, スマートクォート)に対応しています。改行保持がオンの場合、p、div、li、h1–h6、br などのブロックレベル要素の終了タグが改行になり、連続する空行は1つの空行にまとめられます。
よくある落とし穴とエッジケース
悪意のある入力を扱う場合、正規表現ベースのHTML除去は本物のHTMLパーサーの代替にはなりません。信頼できないHTMLを別の場所に再注入する前のサニタイズ用途には使うべきではありません。タグの不一致など不正なマークアップは、予期しない空白を生むことがあります。埋め込みのbase64画像、タグのように見える文字列を含むスクリプト、CDATAセクションにはいずれもエッジケースがあります。サーバーサイドの本番サニタイズには、DOMPurify、sanitize-html、bleach など実績のあるライブラリを使用してください。
コードではなくこのツールを使うべき場面
HTMLの塊をプレーンテキストに一発変換したいとき(例:スクレイピングしたページやコピーしたメール本文のクリーニング)には、このブラウザツールを使ってください。アプリケーションコードでは目的別のライブラリを優先してください。サニタイズには DOMPurify、構造化されたテキスト抽出には html-to-text や htmlparser2、DOMを走査する必要がある場合は Cheerio や jsdom が適しています。これらのライブラリは、入れ子のテーブル、エンコーディング宣言、条件付きコメントなどのエッジケースを、正規表現の単純な処理より堅牢に扱えます。