Elimină etichetele HTML
Intrare HTML
Ieșire text simplu
Detalii tehnice
Cum funcționează instrumentul Strip HTML Tags
Ce face instrumentul
Strip HTML Tags elimină tot markup-ul HTML din text și returnează conținutul vizibil ca text simplu. Gestionează taguri de deschidere și închidere, atribute, taguri auto-închise, comentarii și structuri imbricate. Comportamentele opționale includ decodarea entităților HTML comune (&, ©, €), păstrarea întreruperilor de linie la taguri de nivel bloc și elemente br, precum și eliminarea completă a blocurilor script și style, astfel încât conținutul lor să nu ajungă în rezultat.
Cazuri de utilizare comune pentru dezvoltatori
Folosiți Strip HTML Tags pentru a converti e-mailuri rich-text sau conținut din CMS în text simplu pentru rezumate SMS, pentru a curăța HTML-ul colectat înainte de a-l stoca într-un index de căutare, pentru a extrage conținutul lizibil al unui articol pentru sumarizare sau pentru a curăța datele din clipboard după copierea dintr-o pagină web randată. Ajută și la pregătirea fixture-urilor de test din pagini HTML de producție, unde contează doar conținutul textual.
Formate de date, tipuri sau variante
Intrarea poate fi orice markup de tip HTML sau XML; ieșirea este text simplu UTF-8. Referințele numerice la entități precum € și € sunt decodate în caracterele lor Unicode, iar un set larg de entități denumite (&, <, >, ", ', , ©, ®, ™, …, —, –, ghilimele „smart”) este suportat. Când păstrarea întreruperilor de linie este activată, tagurile de închidere pentru p, div, li, h1–h6, br și alte elemente de nivel bloc devin linii noi, iar liniile goale consecutive se comprimă la o singură linie goală.
Capcane frecvente și cazuri limită
Eliminarea HTML-ului bazată pe regex nu este un substitut pentru un parser HTML real atunci când aveți de-a face cu input malițios — nu ar trebui folosită pentru a sanitiza HTML neîncrezător înainte de a-l reinjecta în altă parte. Markup-ul malformat, cu taguri nepotrivite, poate produce spațiere surprinzătoare. Imaginile base64 încorporate, scripturile care conțin șiruri ce arată ca taguri și secțiunile CDATA au toate cazuri-limită. Pentru sanitizare server-side în producție, folosiți în schimb o bibliotecă testată în luptă precum DOMPurify, sanitize-html sau bleach.
Când să folosești acest instrument vs cod
Folosiți instrumentul din browser când aveți nevoie de o conversie „dintr-o singură lovitură” a unui fragment de HTML în text simplu — de ex. curățarea unei pagini colectate sau a corpului unui e-mail copiat. În codul aplicației, preferați biblioteci dedicate: DOMPurify pentru sanitizare, html-to-text sau htmlparser2 pentru extragerea structurată a textului și Cheerio sau jsdom când aveți nevoie să parcurgeți DOM-ul. Aceste biblioteci gestionează mai robust decât o trecere cu regex cazuri-limită precum tabele imbricate, declarații de codare și comentarii condiționale.