DevToys Web Pro iconDevToys Web ProBlog
Ohodnoťte nás:
Vyskúšajte rozšírenie prehliadača:

Odstrániť HTML značky

10 odstránené značky245 odstránené znaky

Vstup HTML

  • Výstup ako čistý text

  • Technické podrobnosti

    Ako funguje nástroj Strip HTML Tags

    Čo nástroj robí

    Strip HTML Tags odstráni z textu všetku HTML značkovaciu vrstvu a vráti viditeľný obsah ako čistý text. Spracuje otváracie a zatváracie tagy, atribúty, samouzatváracie tagy, komentáre aj vnorené štruktúry. Voliteľné správanie zahŕňa dekódovanie bežných HTML entít (&, ©, €), zachovanie zalomení riadkov pri blokových tagoch a prvkoch br a úplné odstránenie blokov script a style, aby sa ich obsah nedostal do výstupu.

    Bežné prípady použitia pre vývojárov

    Strip HTML Tags použite na konverziu e-mailov s bohatým formátovaním alebo obsahu z CMS na čistý text pre SMS prehľady, na sanitizáciu zozbieraného HTML pred uložením do vyhľadávacieho indexu, na extrakciu čitateľného obsahu článku na sumarizáciu alebo na vyčistenie údajov v schránke po kopírovaní z vykreslenej webovej stránky. Pomáha aj pri príprave testovacích fixture z produkčných HTML stránok, kde záleží iba na textovom obsahu.

    Dátové formáty, typy alebo varianty

    Vstupom je ľubovoľné HTML alebo XML-štýlové značkovanie; výstupom je čistý text v UTF-8. Číselné odkazy na entity ako € a € sa dekódujú na svoje znaky Unicode a podporovaná je aj široká sada pomenovaných entít (&, <, >, ", ',  , ©, ®, ™, …, —, –, typografické úvodzovky). Keď je zapnuté zachovanie zalomení riadkov, zatváracie tagy pre p, div, li, h1–h6, br a ďalšie blokové prvky sa zmenia na nové riadky a po sebe idúce prázdne riadky sa zredukujú na jeden prázdny riadok.

    Bežné úskalia a okrajové prípady

    Odstraňovanie HTML pomocou regexov nie je náhradou za skutočný HTML parser pri práci so škodlivým vstupom — nemalo by sa používať na sanitizáciu nedôveryhodného HTML pred jeho opätovným vložením inde. Chybné značkovanie s nesúladnými tagmi môže vytvárať prekvapivé medzery. Vložené base64 obrázky, skripty obsahujúce reťazce, ktoré vyzerajú ako tagy, a sekcie CDATA majú svoje okrajové prípady. Na server-side produkčnú sanitizáciu radšej použite overenú knižnicu ako DOMPurify, sanitize-html alebo bleach.

    Kedy použiť tento nástroj vs. kód

    Tento nástroj v prehliadači použite, keď potrebujete jednorazovo previesť kus HTML na čistý text — napr. pri čistení zozbieranej stránky alebo skopírovaného tela e-mailu. V aplikačnom kóde uprednostnite účelové knižnice: DOMPurify na sanitizáciu, html-to-text alebo htmlparser2 na štruktúrovanú extrakciu textu a Cheerio alebo jsdom, keď potrebujete prechádzať DOM. Tieto knižnice zvládajú okrajové prípady, ako vnorené tabuľky, deklarácie kódovania a podmienené komentáre, robustnejšie než prechod regexom.