Fjern HTML-tags
HTML-input
Output som ren tekst
Tekniske detaljer
Sådan fungerer værktøjet til at fjerne HTML-tags
Hvad værktøjet gør
Strip HTML Tags fjerner al HTML-markup fra tekst og returnerer det synlige indhold som ren tekst. Det håndterer åbnings- og lukketags, attributter, selv-lukkende tags, kommentarer og indlejrede strukturer. Valgfrie funktioner inkluderer afkodning af almindelige HTML-entiteter (&, ©, €), bevarelse af linjeskift ved blokniveau-tags og br-elementer samt fuldstændig fjernelse af script- og style-blokke, så deres indhold ikke lækker ind i outputtet.
Almindelige anvendelsestilfælde for udviklere
Brug Strip HTML Tags til at konvertere rich-text e-mails eller CMS-indhold til ren tekst til SMS-oversigter, rense scraped HTML før det gemmes i et søgeindeks, udtrække den læsbare tekst fra en artikel til opsummering eller rydde op i udklipsholderdata efter kopiering fra en renderet webside. Det hjælper også, når du forbereder test-fixtures ud fra produktions-HTML-sider, hvor kun tekstindholdet er vigtigt.
Dataformater, typer eller varianter
Input kan være enhver HTML- eller XML-lignende markup; output er ren UTF-8-tekst. Numeriske entitetsreferencer som € og € afkodes til deres Unicode-tegn, og et bredt udvalg af navngivne entiteter (&, <, >, ", ', , ©, ®, ™, …, —, –, smarte citationstegn) understøttes. Når bevarelse af linjeskift er slået til, bliver lukketags for p, div, li, h1–h6, br og andre blokniveau-elementer til linjeskift, og flere på hinanden følgende tomme linjer kollapser til én tom linje.
Almindelige faldgruber og kanttilfælde
Regex-baseret fjernelse af HTML er ikke en erstatning for en rigtig HTML-parser, når du håndterer ondsindet input — det bør ikke bruges til at sanitere utroværdig HTML, før den injiceres et andet sted. Fejlformet markup med tags, der ikke matcher, kan give overraskende whitespace. Indlejrede base64-billeder, scripts der indeholder strenge, som ligner tags, og CDATA-sektioner har alle kanttilfælde. Til server-side sanitering i produktion bør du i stedet bruge et gennemprøvet bibliotek som DOMPurify, sanitize-html eller bleach.
Hvornår du skal bruge dette værktøj vs. kode
Brug dette browserværktøj, når du har brug for en engangskonvertering af et stykke HTML til ren tekst — f.eks. til at rydde op i en scraped side eller en kopieret e-mailtekst. I applikationskode bør du foretrække formålsbyggede biblioteker: DOMPurify til sanitering, html-to-text eller htmlparser2 til struktureret tekstudtræk og Cheerio eller jsdom, når du skal traversere DOM'en. Disse biblioteker håndterer kanttilfælde som indlejrede tabeller, encoding-deklarationer og betingede kommentarer mere robust end et regex-pass.