DevToys Web Pro iconDevToys Web ProBlog
Értékeljen minket:
Próbáld ki a böngészőbővítményt:

HTML-címkék eltávolítása

10 címke eltávolítva245 karakter eltávolítva

HTML-bemenet

  • Egyszerű szöveges kimenet

  • Technikai részletek

    Hogyan működik a HTML-címkék eltávolítása eszköz

    Mit csinál az eszköz

    A HTML-címkék eltávolítása minden HTML-jelölést eltávolít a szövegből, és a látható tartalmat egyszerű szövegként adja vissza. Kezeli a nyitó és záró tageket, attribútumokat, önzáró tageket, megjegyzéseket és beágyazott struktúrákat. Opcionális viselkedések: gyakori HTML-entitások dekódolása (&, ©, €), sortörések megőrzése blokk szintű tageknél és br elemeknél, valamint a script és style blokkok teljes eltávolítása, hogy a tartalmuk ne szivárogjon be a kimenetbe.

    Gyakori fejlesztői felhasználási esetek

    Használd a HTML-címkék eltávolítását rich-text e-mailek vagy CMS-tartalmak egyszerű szöveggé alakításához SMS-összefoglalókhoz, a begyűjtött HTML megtisztításához keresőindexbe mentés előtt, egy cikk olvasható tartalmának kinyeréséhez összefoglaláshoz, vagy a vágólapadatok rendbetételéhez egy megjelenített weboldalról történő másolás után. Hasznos akkor is, amikor éles HTML-oldalakból készítesz teszt-fixture-öket, ahol csak a szöveges tartalom számít.

    Adatformátumok, típusok vagy változatok

    A bemenet bármilyen HTML- vagy XML-jellegű jelölés; a kimenet egyszerű UTF-8 szöveg. Az olyan numerikus entitáshivatkozások, mint a € és a €, a megfelelő Unicode karakterekké dekódolódnak, és a névvel jelölt entitások széles köre támogatott (&, <, >, ", ',  , ©, ®, ™, …, —, –, okos idézőjelek). Ha a sortörések megőrzése be van kapcsolva, a p, div, li, h1–h6, br és más blokk szintű elemek záró tagjei újsorrá válnak, és az egymást követő üres sorok egyetlen üres sorra csukódnak össze.

    Gyakori buktatók és szélső esetek

    A regex-alapú HTML-eltávolítás nem helyettesíti a valódi HTML-parsert rosszindulatú bemenet esetén — nem szabad nem megbízható HTML-t így „szanitizálni” azelőtt, hogy máshová visszainjektálnád. A hibás, nem illeszkedő tageket tartalmazó jelölés meglepő szóközöket eredményezhet. A beágyazott base64 képek, a tagekhez hasonló sztringeket tartalmazó scriptek és a CDATA szekciók mind tartalmaznak szélső eseteket. Szerveroldali, éles szanitizáláshoz inkább használj bevált könyvtárat, például DOMPurify-t, sanitize-html-t vagy bleach-et.

    Mikor érdemes ezt az eszközt használni a kód helyett

    Használd ezt a böngészős eszközt, amikor egyetlen lépésben szeretnél egy HTML-részletet egyszerű szöveggé alakítani — pl. egy begyűjtött oldal vagy egy kimásolt e-mail törzsének tisztításához. Alkalmazáskódban inkább célzott könyvtárakat válassz: DOMPurify szanitizáláshoz, html-to-text vagy htmlparser2 strukturált szövegkinyeréshez, illetve Cheerio vagy jsdom, ha a DOM-ot be kell járnod. Ezek a könyvtárak robusztusabban kezelik az olyan szélső eseteket, mint a beágyazott táblázatok, kódolási deklarációk és feltételes megjegyzések, mint egy regexes átfuttatás.