Odstranit HTML tagy
Vstup HTML
Výstup prostého textu
Technické detaily
Jak funguje nástroj Strip HTML Tags
Co nástroj dělá
Strip HTML Tags odstraní z textu veškeré HTML značkování a vrátí viditelný obsah jako prostý text. Zpracuje otevírací i zavírací tagy, atributy, samouzavírací tagy, komentáře i vnořené struktury. Volitelné chování zahrnuje dekódování běžných HTML entit (&, ©, €), zachování zalomení řádků u blokových tagů a prvků br a úplné odstranění bloků script a style, aby se jejich obsah nedostal do výstupu.
Běžné případy použití pro vývojáře
Strip HTML Tags použijte k převodu e-mailů s formátováním nebo obsahu z CMS na prostý text pro SMS souhrny, k očištění scrapovaného HTML před uložením do vyhledávacího indexu, k extrakci čitelného obsahu článku pro sumarizaci nebo k vyčištění dat ve schránce po zkopírování z vykreslené webové stránky. Pomáhá také při přípravě testovacích fixture z produkčních HTML stránek, kde záleží jen na textovém obsahu.
Datové formáty, typy nebo varianty
Vstupem je libovolné značkování ve stylu HTML nebo XML; výstupem je prostý text v UTF-8. Číselné odkazy na entity jako € a € se dekódují na odpovídající znaky Unicode a podporována je široká sada pojmenovaných entit (&, <, >, ", ', , ©, ®, ™, …, —, –, „chytré“ uvozovky). Když je zapnuté zachování zalomení řádků, zavírací tagy pro p, div, li, h1–h6, br a další blokové prvky se převedou na nové řádky a po sobě jdoucí prázdné řádky se sloučí do jednoho prázdného řádku.
Běžné nástrahy a okrajové případy
Odstraňování HTML pomocí regexů není náhradou za skutečný HTML parser při práci se škodlivým vstupem — nemělo by se používat k sanitizaci nedůvěryhodného HTML před jeho opětovným vložením jinam. Poškozené značkování s nesouhlasícími tagy může vytvářet překvapivé mezery. Vložené base64 obrázky, skripty obsahující řetězce, které vypadají jako tagy, i sekce CDATA mají své okrajové případy. Pro serverovou produkční sanitizaci raději použijte prověřenou knihovnu, jako je DOMPurify, sanitize-html nebo bleach.
Kdy použít tento nástroj vs. kód
Tento nástroj v prohlížeči použijte, když potřebujete jednorázově převést kus HTML na prostý text — např. při čištění scrapované stránky nebo zkopírovaného těla e-mailu. V aplikačním kódu upřednostněte účelové knihovny: DOMPurify pro sanitizaci, html-to-text nebo htmlparser2 pro strukturovanou extrakci textu a Cheerio nebo jsdom, když potřebujete procházet DOM. Tyto knihovny zvládají okrajové případy, jako jsou vnořené tabulky, deklarace kódování a podmíněné komentáře, robustněji než průchod regexem.