DevToys Web Pro iconDevToys Web ProBlog
Bewerten Sie uns:
Browser-Erweiterung ausprobieren:

HTML-Tags entfernen

10 Tags entfernt245 Zeichen entfernt

HTML-Eingabe

  • Nur-Text-Ausgabe

  • Technische Details

    So funktioniert das Tool zum Entfernen von HTML-Tags

    Was das Tool macht

    Strip HTML Tags entfernt sämtliches HTML-Markup aus Text und gibt den sichtbaren Inhalt als Klartext zurück. Es verarbeitet öffnende und schließende Tags, Attribute, selbstschließende Tags, Kommentare und verschachtelte Strukturen. Optionale Funktionen umfassen das Dekodieren gängiger HTML-Entities (&, ©, €), das Beibehalten von Zeilenumbrüchen bei Block-Level-Tags und br-Elementen sowie das vollständige Entfernen von script- und style-Blöcken, damit deren Inhalte nicht in die Ausgabe gelangen.

    Häufige Anwendungsfälle für Entwickler

    Verwenden Sie Strip HTML Tags, um Rich-Text-E-Mails oder CMS-Inhalte in Klartext für SMS-Zusammenfassungen umzuwandeln, gescraptes HTML vor dem Speichern in einem Suchindex zu bereinigen, den lesbaren Inhalt eines Artikels für Zusammenfassungen zu extrahieren oder Clipboard-Daten nach dem Kopieren von einer gerenderten Webseite aufzuräumen. Es hilft auch beim Erstellen von Test-Fixtures aus Produktions-HTML-Seiten, bei denen nur der Textinhalt zählt.

    Datenformate, Typen oder Varianten

    Eingabe ist beliebiges HTML- oder XML-ähnliches Markup; Ausgabe ist reiner UTF-8-Text. Numerische Entity-Referenzen wie € und € werden in ihre Unicode-Zeichen dekodiert, und eine breite Menge benannter Entities (&, <, >, ", ',  , ©, ®, ™, …, —, –, Smart Quotes) wird unterstützt. Wenn das Beibehalten von Zeilenumbrüchen aktiviert ist, werden schließende Tags für p, div, li, h1–h6, br und andere Block-Level-Elemente zu Newlines, und aufeinanderfolgende Leerzeilen werden zu einer einzelnen Leerzeile zusammengefasst.

    Häufige Fallstricke und Sonderfälle

    Regex-basiertes Entfernen von HTML ist kein Ersatz für einen echten HTML-Parser bei bösartiger Eingabe — es sollte nicht verwendet werden, um nicht vertrauenswürdiges HTML zu bereinigen, bevor es anderswo wieder eingefügt wird. Fehlerhaftes Markup mit nicht passenden Tags kann überraschende Whitespaces erzeugen. Eingebettete Base64-Bilder, Skripte mit Strings, die wie Tags aussehen, und CDATA-Abschnitte haben alle Edge Cases. Für serverseitige Produktions-Sanitization verwenden Sie stattdessen eine bewährte Bibliothek wie DOMPurify, sanitize-html oder bleach.

    Wann dieses Tool statt Code verwenden

    Verwenden Sie dieses Browser-Tool, wenn Sie eine einmalige Konvertierung eines HTML-Blocks in Klartext benötigen — z. B. zum Bereinigen einer gescrapten Seite oder eines kopierten E-Mail-Textkörpers. Im Anwendungscode bevorzugen Sie zweckgebundene Bibliotheken: DOMPurify für Sanitization, html-to-text oder htmlparser2 für strukturierte Textextraktion und Cheerio oder jsdom, wenn Sie den DOM durchlaufen müssen. Diese Bibliotheken behandeln Edge Cases wie verschachtelte Tabellen, Encoding-Deklarationen und Conditional Comments robuster als ein Regex-Durchlauf.