Usuń tagi HTML
Wejście HTML
Wyjście w postaci zwykłego tekstu
Szczegóły techniczne
Jak działa narzędzie Strip HTML Tags
Co robi narzędzie
Strip HTML Tags usuwa z tekstu cały znacznik HTML i zwraca widoczną treść jako zwykły tekst. Obsługuje tagi otwierające i zamykające, atrybuty, tagi samozamykające, komentarze oraz struktury zagnieżdżone. Opcjonalne zachowania obejmują dekodowanie popularnych encji HTML (&, ©, €), zachowywanie podziałów wierszy przy tagach blokowych i elementach br oraz całkowite usuwanie bloków script i style, aby ich zawartość nie przedostała się do wyniku.
Typowe zastosowania dla programistów
Użyj Strip HTML Tags, aby konwertować e-maile w formacie rich text lub treści z CMS na zwykły tekst do podsumowań SMS, oczyścić zeskrobany HTML przed zapisaniem go w indeksie wyszukiwania, wyciągnąć czytelną treść artykułu do streszczenia albo uporządkować dane ze schowka po skopiowaniu z wyrenderowanej strony WWW. Pomaga też przy przygotowywaniu danych testowych na podstawie produkcyjnych stron HTML, gdy liczy się wyłącznie treść tekstowa.
Formaty danych, typy lub warianty
Wejściem jest dowolny znacznik w stylu HTML lub XML; wyjściem jest zwykły tekst UTF-8. Numeryczne odwołania do encji, takie jak € i €, są dekodowane do odpowiadających im znaków Unicode, a obsługiwany jest szeroki zestaw encji nazwanych (&, <, >, ", ', , ©, ®, ™, …, —, –, cudzysłowy typograficzne). Gdy włączone jest zachowywanie podziałów wierszy, tagi zamykające dla p, div, li, h1–h6, br oraz innych elementów blokowych stają się znakami nowej linii, a kolejne puste linie są redukowane do jednej pustej linii.
Typowe pułapki i przypadki brzegowe
Usuwanie HTML oparte na regexach nie zastępuje prawdziwego parsera HTML przy pracy ze złośliwym wejściem — nie należy go używać do sanitizacji niezaufanego HTML przed ponownym wstrzyknięciem go gdziekolwiek indziej. Niepoprawny znacznik z niedopasowanymi tagami może dawać zaskakujące odstępy. Osadzone obrazy base64, skrypty zawierające ciągi wyglądające jak tagi oraz sekcje CDATA mają swoje przypadki brzegowe. Do produkcyjnej sanitizacji po stronie serwera użyj sprawdzonej biblioteki, takiej jak DOMPurify, sanitize-html lub bleach.
Kiedy używać tego narzędzia zamiast kodu
Użyj tego narzędzia w przeglądarce, gdy potrzebujesz jednorazowej konwersji fragmentu HTML na zwykły tekst — np. do oczyszczenia zeskrobanej strony lub skopiowanej treści e-maila. W kodzie aplikacji preferuj biblioteki stworzone do tego celu: DOMPurify do sanitizacji, html-to-text lub htmlparser2 do ustrukturyzowanego wyciągania tekstu oraz Cheerio lub jsdom, gdy musisz przejść po DOM. Te biblioteki radzą sobie z przypadkami brzegowymi, takimi jak zagnieżdżone tabele, deklaracje kodowania i komentarze warunkowe, znacznie lepiej niż pojedyncze przejście regexem.