HTML-tags verwijderen
HTML-invoer
Uitvoer als platte tekst
Technische details
Hoe de Strip HTML Tags-tool werkt
Wat de tool doet
Strip HTML Tags verwijdert alle HTML-opmaak uit tekst en geeft de zichtbare inhoud terug als platte tekst. Het verwerkt open- en sluit-tags, attributen, self-closing tags, comments en geneste structuren. Optionele functies zijn het decoderen van veelvoorkomende HTML-entiteiten (&, ©, €), het behouden van regeleinden bij block-level tags en br-elementen, en het volledig verwijderen van script- en style-blokken zodat hun inhoud niet in de output terechtkomt.
Veelvoorkomende use-cases voor ontwikkelaars
Gebruik Strip HTML Tags om rich-text e-mail- of CMS-inhoud om te zetten naar platte tekst voor SMS-samenvattingen, gescrapete HTML te schonen voordat je het opslaat in een zoekindex, de leesbare inhoud van een artikel te extraheren voor samenvatting, of klemborddata op te schonen na het kopiëren van een gerenderde webpagina. Het helpt ook bij het voorbereiden van testfixtures op basis van productie-HTML-pagina's waarbij alleen de tekstuele inhoud ertoe doet.
Gegevensformaten, typen of varianten
Input is elke HTML- of XML-achtige markup; output is platte UTF-8-tekst. Numerieke entiteitsreferenties zoals € en € worden gedecodeerd naar hun Unicode-tekens, en een brede set benoemde entiteiten (&, <, >, ", ', , ©, ®, ™, …, —, –, smart quotes) wordt ondersteund. Wanneer het behouden van regeleinden aan staat, worden sluit-tags voor p, div, li, h1–h6, br en andere block-level elementen omgezet naar nieuwe regels en worden opeenvolgende lege regels samengevoegd tot één lege regel.
Veelvoorkomende valkuilen en edge-cases
HTML strippen met regex is geen vervanging voor een echte HTML-parser bij kwaadaardige input — het moet niet worden gebruikt om onbetrouwbare HTML te saneren voordat je die elders opnieuw injecteert. Onjuiste markup met niet-overeenkomende tags kan verrassende witruimte opleveren. Ingesloten base64-afbeeldingen, scripts met strings die op tags lijken en CDATA-secties hebben allemaal edge cases. Gebruik voor server-side productie-sanitization in plaats daarvan een beproefde library zoals DOMPurify, sanitize-html of bleach.
Wanneer je deze tool gebruikt vs code
Gebruik deze browsertool wanneer je een eenmalige conversie van een stuk HTML naar platte tekst nodig hebt — bijv. het opschonen van een gescrapete pagina of een gekopieerde e-mailbody. In applicatiecode kun je beter doelgerichte libraries gebruiken: DOMPurify voor sanitization, html-to-text of htmlparser2 voor gestructureerde tekstextractie, en Cheerio of jsdom wanneer je door de DOM moet lopen. Deze libraries gaan robuuster om met edge cases zoals geneste tabellen, encoding-declaraties en conditionele comments dan een regex-pass.