去除 HTML 标签
HTML 输入
纯文本输出
技术详情
Strip HTML Tags 工具如何工作
工具功能
Strip HTML Tags 会从文本中移除所有 HTML 标记,并将可见内容以纯文本形式返回。它能处理开始与结束标签、属性、自闭合标签、注释以及嵌套结构。可选行为包括解码常见的 HTML 实体(&、©、€)、在块级标签和 br 元素处保留换行,以及完全移除 script 和 style 块,避免其内容泄漏到输出中。
常见开发者使用场景
使用 Strip HTML Tags 可将富文本邮件或 CMS 内容转换为用于短信摘要的纯文本;在将抓取到的 HTML 存入搜索索引前进行清理;提取文章的可读内容用于摘要;或在从已渲染网页复制后清理剪贴板数据。在从生产环境 HTML 页面准备测试夹具时(只关心文本内容),它也很有帮助。
数据格式、类型或变体
输入可以是任何 HTML 或带有 XML 风格的标记;输出为纯 UTF-8 文本。像 € 和 € 这样的数字实体引用会被解码为对应的 Unicode 字符,并支持大量命名实体(&、<、>、"、'、 、©、®、™、…、—、–、智能引号)。开启保留换行后,p、div、li、h1–h6、br 以及其他块级元素的闭合标签会转换为换行符,连续的空行会折叠为单个空行。
常见陷阱与边界情况
在处理恶意输入时,基于正则的 HTML 去标签并不能替代真正的 HTML 解析器——不应将其用于清理不受信任的 HTML 后再注入到其他地方。标签不匹配的畸形标记可能产生意外的空白。内嵌的 base64 图片、包含看起来像标签的字符串的脚本,以及 CDATA 段都存在边界情况。用于服务器端生产级清理时,请改用经过实战检验的库,例如 DOMPurify、sanitize-html 或 bleach。
何时使用此工具而非代码
当你需要一次性将一段 HTML 转换为纯文本时使用这个浏览器工具——例如清理抓取的页面或复制的邮件正文。在应用代码中,优先使用专用库:用 DOMPurify 做净化,用 html-to-text 或 htmlparser2 做结构化文本提取,以及在需要遍历 DOM 时使用 Cheerio 或 jsdom。与一次正则处理相比,这些库能更稳健地处理嵌套表格、编码声明和条件注释等边界情况。