Ukloni HTML oznake
HTML ulaz
Izlaz običnog teksta
Tehnički detalji
Kako radi alat Strip HTML Tags
Što alat radi
Strip HTML Tags uklanja sav HTML markup iz teksta i vraća vidljivi sadržaj kao običan tekst. Obraduje otvarajuće i zatvarajuće oznake, atribute, samostalno zatvarajuće oznake, komentare i ugniježđene strukture. Opcionalna ponašanja uključuju dekodiranje uobičajenih HTML entiteta (&, ©, €), očuvanje prijeloma redaka na blokovnim oznakama i br elementima te potpuno uklanjanje script i style blokova kako njihov sadržaj ne bi procurio u izlaz.
Uobičajeni slučajevi upotrebe za razvojne programere
Koristite Strip HTML Tags za pretvaranje rich-text e-pošte ili CMS sadržaja u običan tekst za SMS sažetke, sanitiziranje prikupljenog HTML-a prije spremanja u indeks pretraživanja, izdvajanje čitljivog sadržaja članka za sažimanje ili čišćenje podataka međuspremnika nakon kopiranja s renderirane web stranice. Također pomaže pri pripremi testnih fixturea iz produkcijskih HTML stranica kada je važan samo tekstualni sadržaj.
Formati podataka, vrste ili varijante
Ulaz može biti bilo koji HTML ili XML-sličan markup; izlaz je običan UTF-8 tekst. Numeričke reference entiteta poput € i € dekodiraju se u svoje Unicode znakove, a podržan je i širok skup imenovanih entiteta (&, <, >, ", ', , ©, ®, ™, …, —, –, pametni navodnici). Kada je uključeno očuvanje prijeloma redaka, zatvarajuće oznake za p, div, li, h1–h6, br i druge blokovne elemente postaju novi redci, a uzastopni prazni redci sažimaju se na jedan prazni redak.
Uobičajene zamke i rubni slučajevi
Uklanjanje HTML-a temeljeno na regexu nije zamjena za pravi HTML parser pri radu sa zlonamjernim ulazom — ne bi se smjelo koristiti za sanitiziranje nepouzdanog HTML-a prije ponovnog umetanja negdje drugdje. Neispravan markup s neusklađenim oznakama može proizvesti neočekivane razmake. Ugrađene base64 slike, skripte koje sadrže nizove koji izgledaju kao oznake i CDATA odjeljci imaju rubne slučajeve. Za produkcijsku sanitizaciju na strani poslužitelja umjesto toga koristite provjerenu biblioteku kao što su DOMPurify, sanitize-html ili bleach.
Kada koristiti ovaj alat umjesto koda
Koristite ovaj alat u pregledniku kada vam treba jednokratna pretvorba dijela HTML-a u običan tekst — npr. čišćenje prikupljene stranice ili kopiranog tijela e-pošte. U aplikacijskom kodu radije koristite namjenske biblioteke: DOMPurify za sanitizaciju, html-to-text ili htmlparser2 za strukturirano izdvajanje teksta te Cheerio ili jsdom kada trebate prolaziti kroz DOM. Ove biblioteke robusnije obrađuju rubne slučajeve poput ugniježđenih tablica, deklaracija kodiranja i uvjetnih komentara nego prolaz s regexom.