DevToys Web Pro iconDevToys Web ProBlog
Evaluează-ne:
Încearcă extensia de browser:

Elimină etichetele HTML

10 etichete eliminate245 caractere eliminate

Intrare HTML

  • Ieșire text simplu

  • Detalii tehnice

    Cum funcționează instrumentul Strip HTML Tags

    Ce face instrumentul

    Strip HTML Tags elimină tot markup-ul HTML din text și returnează conținutul vizibil ca text simplu. Gestionează taguri de deschidere și închidere, atribute, taguri auto-închise, comentarii și structuri imbricate. Comportamentele opționale includ decodarea entităților HTML comune (&, ©, €), păstrarea întreruperilor de linie la taguri de nivel bloc și elemente br, precum și eliminarea completă a blocurilor script și style, astfel încât conținutul lor să nu ajungă în rezultat.

    Cazuri de utilizare comune pentru dezvoltatori

    Folosiți Strip HTML Tags pentru a converti e-mailuri rich-text sau conținut din CMS în text simplu pentru rezumate SMS, pentru a curăța HTML-ul colectat înainte de a-l stoca într-un index de căutare, pentru a extrage conținutul lizibil al unui articol pentru sumarizare sau pentru a curăța datele din clipboard după copierea dintr-o pagină web randată. Ajută și la pregătirea fixture-urilor de test din pagini HTML de producție, unde contează doar conținutul textual.

    Formate de date, tipuri sau variante

    Intrarea poate fi orice markup de tip HTML sau XML; ieșirea este text simplu UTF-8. Referințele numerice la entități precum € și € sunt decodate în caracterele lor Unicode, iar un set larg de entități denumite (&, <, >, ", ',  , ©, ®, ™, …, —, –, ghilimele „smart”) este suportat. Când păstrarea întreruperilor de linie este activată, tagurile de închidere pentru p, div, li, h1–h6, br și alte elemente de nivel bloc devin linii noi, iar liniile goale consecutive se comprimă la o singură linie goală.

    Capcane frecvente și cazuri limită

    Eliminarea HTML-ului bazată pe regex nu este un substitut pentru un parser HTML real atunci când aveți de-a face cu input malițios — nu ar trebui folosită pentru a sanitiza HTML neîncrezător înainte de a-l reinjecta în altă parte. Markup-ul malformat, cu taguri nepotrivite, poate produce spațiere surprinzătoare. Imaginile base64 încorporate, scripturile care conțin șiruri ce arată ca taguri și secțiunile CDATA au toate cazuri-limită. Pentru sanitizare server-side în producție, folosiți în schimb o bibliotecă testată în luptă precum DOMPurify, sanitize-html sau bleach.

    Când să folosești acest instrument vs cod

    Folosiți instrumentul din browser când aveți nevoie de o conversie „dintr-o singură lovitură” a unui fragment de HTML în text simplu — de ex. curățarea unei pagini colectate sau a corpului unui e-mail copiat. În codul aplicației, preferați biblioteci dedicate: DOMPurify pentru sanitizare, html-to-text sau htmlparser2 pentru extragerea structurată a textului și Cheerio sau jsdom când aveți nevoie să parcurgeți DOM-ul. Aceste biblioteci gestionează mai robust decât o trecere cu regex cazuri-limită precum tabele imbricate, declarații de codare și comentarii condiționale.