HTML-címkék eltávolítása
HTML-bemenet
Egyszerű szöveges kimenet
Technikai részletek
Hogyan működik a HTML-címkék eltávolítása eszköz
Mit csinál az eszköz
A HTML-címkék eltávolítása minden HTML-jelölést eltávolít a szövegből, és a látható tartalmat egyszerű szövegként adja vissza. Kezeli a nyitó és záró tageket, attribútumokat, önzáró tageket, megjegyzéseket és beágyazott struktúrákat. Opcionális viselkedések: gyakori HTML-entitások dekódolása (&, ©, €), sortörések megőrzése blokk szintű tageknél és br elemeknél, valamint a script és style blokkok teljes eltávolítása, hogy a tartalmuk ne szivárogjon be a kimenetbe.
Gyakori fejlesztői felhasználási esetek
Használd a HTML-címkék eltávolítását rich-text e-mailek vagy CMS-tartalmak egyszerű szöveggé alakításához SMS-összefoglalókhoz, a begyűjtött HTML megtisztításához keresőindexbe mentés előtt, egy cikk olvasható tartalmának kinyeréséhez összefoglaláshoz, vagy a vágólapadatok rendbetételéhez egy megjelenített weboldalról történő másolás után. Hasznos akkor is, amikor éles HTML-oldalakból készítesz teszt-fixture-öket, ahol csak a szöveges tartalom számít.
Adatformátumok, típusok vagy változatok
A bemenet bármilyen HTML- vagy XML-jellegű jelölés; a kimenet egyszerű UTF-8 szöveg. Az olyan numerikus entitáshivatkozások, mint a € és a €, a megfelelő Unicode karakterekké dekódolódnak, és a névvel jelölt entitások széles köre támogatott (&, <, >, ", ', , ©, ®, ™, …, —, –, okos idézőjelek). Ha a sortörések megőrzése be van kapcsolva, a p, div, li, h1–h6, br és más blokk szintű elemek záró tagjei újsorrá válnak, és az egymást követő üres sorok egyetlen üres sorra csukódnak össze.
Gyakori buktatók és szélső esetek
A regex-alapú HTML-eltávolítás nem helyettesíti a valódi HTML-parsert rosszindulatú bemenet esetén — nem szabad nem megbízható HTML-t így „szanitizálni” azelőtt, hogy máshová visszainjektálnád. A hibás, nem illeszkedő tageket tartalmazó jelölés meglepő szóközöket eredményezhet. A beágyazott base64 képek, a tagekhez hasonló sztringeket tartalmazó scriptek és a CDATA szekciók mind tartalmaznak szélső eseteket. Szerveroldali, éles szanitizáláshoz inkább használj bevált könyvtárat, például DOMPurify-t, sanitize-html-t vagy bleach-et.
Mikor érdemes ezt az eszközt használni a kód helyett
Használd ezt a böngészős eszközt, amikor egyetlen lépésben szeretnél egy HTML-részletet egyszerű szöveggé alakítani — pl. egy begyűjtött oldal vagy egy kimásolt e-mail törzsének tisztításához. Alkalmazáskódban inkább célzott könyvtárakat válassz: DOMPurify szanitizáláshoz, html-to-text vagy htmlparser2 strukturált szövegkinyeréshez, illetve Cheerio vagy jsdom, ha a DOM-ot be kell járnod. Ezek a könyvtárak robusztusabban kezelik az olyan szélső eseteket, mint a beágyazott táblázatok, kódolási deklarációk és feltételes megjegyzések, mint egy regexes átfuttatás.