HTML-Tags entfernen
HTML-Eingabe
Nur-Text-Ausgabe
Technische Details
So funktioniert das Tool zum Entfernen von HTML-Tags
Was das Tool macht
Strip HTML Tags entfernt sämtliches HTML-Markup aus Text und gibt den sichtbaren Inhalt als Klartext zurück. Es verarbeitet öffnende und schließende Tags, Attribute, selbstschließende Tags, Kommentare und verschachtelte Strukturen. Optionale Funktionen umfassen das Dekodieren gängiger HTML-Entities (&, ©, €), das Beibehalten von Zeilenumbrüchen bei Block-Level-Tags und br-Elementen sowie das vollständige Entfernen von script- und style-Blöcken, damit deren Inhalte nicht in die Ausgabe gelangen.
Häufige Anwendungsfälle für Entwickler
Verwenden Sie Strip HTML Tags, um Rich-Text-E-Mails oder CMS-Inhalte in Klartext für SMS-Zusammenfassungen umzuwandeln, gescraptes HTML vor dem Speichern in einem Suchindex zu bereinigen, den lesbaren Inhalt eines Artikels für Zusammenfassungen zu extrahieren oder Clipboard-Daten nach dem Kopieren von einer gerenderten Webseite aufzuräumen. Es hilft auch beim Erstellen von Test-Fixtures aus Produktions-HTML-Seiten, bei denen nur der Textinhalt zählt.
Datenformate, Typen oder Varianten
Eingabe ist beliebiges HTML- oder XML-ähnliches Markup; Ausgabe ist reiner UTF-8-Text. Numerische Entity-Referenzen wie € und € werden in ihre Unicode-Zeichen dekodiert, und eine breite Menge benannter Entities (&, <, >, ", ', , ©, ®, ™, …, —, –, Smart Quotes) wird unterstützt. Wenn das Beibehalten von Zeilenumbrüchen aktiviert ist, werden schließende Tags für p, div, li, h1–h6, br und andere Block-Level-Elemente zu Newlines, und aufeinanderfolgende Leerzeilen werden zu einer einzelnen Leerzeile zusammengefasst.
Häufige Fallstricke und Sonderfälle
Regex-basiertes Entfernen von HTML ist kein Ersatz für einen echten HTML-Parser bei bösartiger Eingabe — es sollte nicht verwendet werden, um nicht vertrauenswürdiges HTML zu bereinigen, bevor es anderswo wieder eingefügt wird. Fehlerhaftes Markup mit nicht passenden Tags kann überraschende Whitespaces erzeugen. Eingebettete Base64-Bilder, Skripte mit Strings, die wie Tags aussehen, und CDATA-Abschnitte haben alle Edge Cases. Für serverseitige Produktions-Sanitization verwenden Sie stattdessen eine bewährte Bibliothek wie DOMPurify, sanitize-html oder bleach.
Wann dieses Tool statt Code verwenden
Verwenden Sie dieses Browser-Tool, wenn Sie eine einmalige Konvertierung eines HTML-Blocks in Klartext benötigen — z. B. zum Bereinigen einer gescrapten Seite oder eines kopierten E-Mail-Textkörpers. Im Anwendungscode bevorzugen Sie zweckgebundene Bibliotheken: DOMPurify für Sanitization, html-to-text oder htmlparser2 für strukturierte Textextraktion und Cheerio oder jsdom, wenn Sie den DOM durchlaufen müssen. Diese Bibliotheken behandeln Edge Cases wie verschachtelte Tabellen, Encoding-Deklarationen und Conditional Comments robuster als ein Regex-Durchlauf.