Ta bort HTML-taggar
HTML-indata
Utdata som oformaterad text
Tekniska detaljer
Så fungerar verktyget för att ta bort HTML-taggar
Vad verktyget gör
Strip HTML Tags tar bort all HTML-markup från text och returnerar det synliga innehållet som ren text. Det hanterar öppnings- och stängningstaggar, attribut, självstängande taggar, kommentarer och nästlade strukturer. Valfria beteenden inkluderar avkodning av vanliga HTML-entiteter (&, ©, €), bevarande av radbrytningar vid blocknivåtaggar och br-element, samt att script- och style-block tas bort helt så att deras innehåll inte läcker in i utdata.
Vanliga användningsfall för utvecklare
Använd Strip HTML Tags för att konvertera rich-text-e-post eller CMS-innehåll till ren text för SMS-sammanfattningar, sanera skrapad HTML innan den lagras i ett sökindex, extrahera den läsbara texten i en artikel för sammanfattning eller städa upp urklippsdata efter kopiering från en renderad webbsida. Det hjälper också när du förbereder testfixturer från produktions-HTML-sidor där bara textinnehållet spelar roll.
Dataformat, typer eller varianter
Indata är valfri HTML- eller XML-liknande markup; utdata är ren UTF-8-text. Numeriska entitetsreferenser som € och € avkodas till sina Unicode-tecken, och ett brett urval av namngivna entiteter (&, <, >, ", ', , ©, ®, ™, …, —, –, smarta citattecken) stöds. När bevarande av radbrytningar är aktiverat blir stängningstaggar för p, div, li, h1–h6, br och andra blocknivåelement nya rader och flera tomma rader i följd kollapsar till en enda tom rad.
Vanliga fallgropar och specialfall
Regex-baserad HTML-rensning är ingen ersättning för en riktig HTML-parser när man hanterar skadlig indata — den bör inte användas för att sanera opålitlig HTML innan den injiceras någon annanstans. Felaktig markup med taggar som inte matchar kan ge oväntade mängder blanksteg. Inbäddade base64-bilder, script som innehåller strängar som ser ut som taggar och CDATA-sektioner har alla kantfall. För sanering på serversidan i produktion, använd i stället ett beprövat bibliotek som DOMPurify, sanitize-html eller bleach.
När du ska använda det här verktyget jämfört med kod
Använd det här webbläsarverktyget när du behöver en engångskonvertering av en bit HTML till ren text — t.ex. för att städa en skrapad sida eller en kopierad e-posttext. I applikationskod bör du föredra ändamålsenliga bibliotek: DOMPurify för sanering, html-to-text eller htmlparser2 för strukturerad textextraktion och Cheerio eller jsdom när du behöver gå igenom DOM:en. Dessa bibliotek hanterar kantfall som nästlade tabeller, kodningsdeklarationer och villkorliga kommentarer mer robust än en regex-pass.