Eliminar etiquetas HTML
Entrada de HTML
Salida de texto sin formato
Detalles técnicos
Cómo funciona la herramienta para eliminar etiquetas HTML
Qué hace la herramienta
Eliminar etiquetas HTML quita todo el marcado HTML del texto y devuelve el contenido visible como texto plano. Maneja etiquetas de apertura y cierre, atributos, etiquetas autocerradas, comentarios y estructuras anidadas. Los comportamientos opcionales incluyen decodificar entidades HTML comunes (&, ©, €), conservar saltos de línea en etiquetas a nivel de bloque y elementos br, y eliminar por completo los bloques de script y style para que su contenido no se filtre en la salida.
Casos de uso comunes para desarrolladores
Usa Eliminar etiquetas HTML para convertir correos de texto enriquecido o contenido de un CMS a texto plano para resúmenes por SMS, sanitizar HTML extraído antes de almacenarlo en un índice de búsqueda, extraer el contenido legible de un artículo para resumirlo o limpiar datos del portapapeles después de copiar desde una página web renderizada. También ayuda al preparar fixtures de prueba a partir de páginas HTML de producción donde solo importa el contenido textual.
Formatos, tipos o variantes de datos
La entrada puede ser cualquier marcado con sabor a HTML o XML; la salida es texto plano UTF-8. Las referencias numéricas de entidades como € y € se decodifican a sus caracteres Unicode, y se admite un amplio conjunto de entidades con nombre (&, <, >, ", ', , ©, ®, ™, …, —, –, comillas tipográficas). Cuando la conservación de saltos de línea está activada, las etiquetas de cierre de p, div, li, h1–h6, br y otros elementos a nivel de bloque se convierten en saltos de línea, y las líneas en blanco consecutivas se reducen a una sola línea en blanco.
Errores comunes y casos límite
Eliminar HTML con regex no sustituye a un parser HTML real cuando se trata de entrada maliciosa: no debe usarse para sanitizar HTML no confiable antes de reinyectarlo en otro lugar. El marcado mal formado con etiquetas desparejadas puede producir espacios en blanco inesperados. Las imágenes base64 incrustadas, los scripts que contienen cadenas que parecen etiquetas y las secciones CDATA tienen casos límite. Para sanitización del lado del servidor en producción, usa en su lugar una biblioteca probada en batalla como DOMPurify, sanitize-html o bleach.
Cuándo usar esta herramienta vs código
Usa esta herramienta del navegador cuando necesites una conversión de una sola vez de un bloque de HTML a texto plano, por ejemplo, para limpiar una página extraída o el cuerpo de un correo copiado. En el código de la aplicación, prefiere bibliotecas diseñadas para ese propósito: DOMPurify para sanitización, html-to-text o htmlparser2 para extracción estructurada de texto, y Cheerio o jsdom cuando necesites recorrer el DOM. Estas bibliotecas manejan casos límite como tablas anidadas, declaraciones de codificación y comentarios condicionales de forma más robusta que un paso con regex.