Eliminar etiquetas HTML
Entrada HTML
Salida de texto sin formato
Detalles técnicos
Cómo funciona la herramienta para eliminar etiquetas HTML
Qué hace la herramienta
Eliminar etiquetas HTML quita todo el marcado HTML del texto y devuelve el contenido visible como texto sin formato. Maneja etiquetas de apertura y cierre, atributos, etiquetas autocerradas, comentarios y estructuras anidadas. Los comportamientos opcionales incluyen decodificar entidades HTML comunes (&, ©, €), conservar saltos de línea en etiquetas de nivel de bloque y elementos br, y eliminar por completo los bloques script y style para que su contenido no se filtre en la salida.
Casos de uso comunes para desarrolladores
Usa Eliminar etiquetas HTML para convertir correos electrónicos de texto enriquecido o contenido de un CMS a texto sin formato para resúmenes por SMS, sanear HTML extraído antes de almacenarlo en un índice de búsqueda, extraer el contenido legible de un artículo para resumirlo o limpiar datos del portapapeles después de copiar desde una página web renderizada. También ayuda al preparar fixtures de prueba a partir de páginas HTML de producción donde solo importa el contenido textual.
Formatos de datos, tipos o variantes
La entrada puede ser cualquier marcado HTML o con sabor a XML; la salida es texto UTF-8 sin formato. Las referencias numéricas a entidades como € y € se decodifican a sus caracteres Unicode, y se admite un amplio conjunto de entidades con nombre (&, <, >, ", ', , ©, ®, ™, …, —, –, comillas tipográficas). Cuando la conservación de saltos de línea está activada, las etiquetas de cierre de p, div, li, h1–h6, br y otros elementos de nivel de bloque se convierten en saltos de línea y las líneas en blanco consecutivas se reducen a una sola línea en blanco.
Errores comunes y casos límite
Eliminar HTML con expresiones regulares no sustituye a un parser HTML real cuando se trata de entradas maliciosas: no debe usarse para sanear HTML no confiable antes de reinyectarlo en otro lugar. El marcado mal formado con etiquetas desajustadas puede producir espacios en blanco inesperados. Las imágenes base64 incrustadas, los scripts que contienen cadenas que parecen etiquetas y las secciones CDATA tienen casos límite. Para el saneamiento en producción del lado del servidor, usa en su lugar una biblioteca probada en batalla como DOMPurify, sanitize-html o bleach.
Cuándo usar esta herramienta vs código
Usa esta herramienta del navegador cuando necesites una conversión puntual de un bloque de HTML a texto sin formato, por ejemplo, para limpiar una página extraída o el cuerpo de un correo copiado. En el código de la aplicación, prefiere bibliotecas diseñadas para ello: DOMPurify para saneamiento, html-to-text o htmlparser2 para extracción estructurada de texto, y Cheerio o jsdom cuando necesites recorrer el DOM. Estas bibliotecas manejan casos límite como tablas anidadas, declaraciones de codificación y comentarios condicionales de forma más robusta que un paso con regex.