Odstrániť HTML značky
Vstup HTML
Výstup ako čistý text
Technické podrobnosti
Ako funguje nástroj Strip HTML Tags
Čo nástroj robí
Strip HTML Tags odstráni z textu všetku HTML značkovaciu vrstvu a vráti viditeľný obsah ako čistý text. Spracuje otváracie a zatváracie tagy, atribúty, samouzatváracie tagy, komentáre aj vnorené štruktúry. Voliteľné správanie zahŕňa dekódovanie bežných HTML entít (&, ©, €), zachovanie zalomení riadkov pri blokových tagoch a prvkoch br a úplné odstránenie blokov script a style, aby sa ich obsah nedostal do výstupu.
Bežné prípady použitia pre vývojárov
Strip HTML Tags použite na konverziu e-mailov s bohatým formátovaním alebo obsahu z CMS na čistý text pre SMS prehľady, na sanitizáciu zozbieraného HTML pred uložením do vyhľadávacieho indexu, na extrakciu čitateľného obsahu článku na sumarizáciu alebo na vyčistenie údajov v schránke po kopírovaní z vykreslenej webovej stránky. Pomáha aj pri príprave testovacích fixture z produkčných HTML stránok, kde záleží iba na textovom obsahu.
Dátové formáty, typy alebo varianty
Vstupom je ľubovoľné HTML alebo XML-štýlové značkovanie; výstupom je čistý text v UTF-8. Číselné odkazy na entity ako € a € sa dekódujú na svoje znaky Unicode a podporovaná je aj široká sada pomenovaných entít (&, <, >, ", ', , ©, ®, ™, …, —, –, typografické úvodzovky). Keď je zapnuté zachovanie zalomení riadkov, zatváracie tagy pre p, div, li, h1–h6, br a ďalšie blokové prvky sa zmenia na nové riadky a po sebe idúce prázdne riadky sa zredukujú na jeden prázdny riadok.
Bežné úskalia a okrajové prípady
Odstraňovanie HTML pomocou regexov nie je náhradou za skutočný HTML parser pri práci so škodlivým vstupom — nemalo by sa používať na sanitizáciu nedôveryhodného HTML pred jeho opätovným vložením inde. Chybné značkovanie s nesúladnými tagmi môže vytvárať prekvapivé medzery. Vložené base64 obrázky, skripty obsahujúce reťazce, ktoré vyzerajú ako tagy, a sekcie CDATA majú svoje okrajové prípady. Na server-side produkčnú sanitizáciu radšej použite overenú knižnicu ako DOMPurify, sanitize-html alebo bleach.
Kedy použiť tento nástroj vs. kód
Tento nástroj v prehliadači použite, keď potrebujete jednorazovo previesť kus HTML na čistý text — napr. pri čistení zozbieranej stránky alebo skopírovaného tela e-mailu. V aplikačnom kóde uprednostnite účelové knižnice: DOMPurify na sanitizáciu, html-to-text alebo htmlparser2 na štruktúrovanú extrakciu textu a Cheerio alebo jsdom, keď potrebujete prechádzať DOM. Tieto knižnice zvládajú okrajové prípady, ako vnorené tabuľky, deklarácie kódovania a podmienené komentáre, robustnejšie než prechod regexom.