DevToys Web Pro iconDevToys Web ProBlogg
Vurder oss:
Prøv nettleserutvidelsen:

Fjern HTML-tagger

10 tagger fjernet245 tegn fjernet

HTML-inndata

  • Ren tekst-utdata

  • Tekniske detaljer

    Slik fungerer verktøyet for å fjerne HTML-tagger

    Hva verktøyet gjør

    Fjern HTML-tagger fjerner all HTML-markup fra tekst og returnerer det synlige innholdet som ren tekst. Det håndterer åpne- og lukketagger, attributter, selvlukkende tagger, kommentarer og nestede strukturer. Valgfrie funksjoner inkluderer dekoding av vanlige HTML-entiteter (&, ©, €), bevaring av linjeskift ved blokk-tagger og br-elementer, samt fullstendig fjerning av script- og style-blokker slik at innholdet deres ikke lekker inn i resultatet.

    Vanlige bruksområder for utviklere

    Bruk Fjern HTML-tagger til å konvertere riktekst-e-post eller CMS-innhold til ren tekst for SMS-sammendrag, sanitere skrapet HTML før det lagres i en søkeindeks, trekke ut lesbart innhold fra en artikkel for oppsummering, eller rydde opp i utklippstavledata etter kopiering fra en rendret nettside. Det hjelper også når du lager test-fixtures fra HTML-sider i produksjon der bare tekstinnholdet er viktig.

    Dataformater, typer eller varianter

    Inndata kan være hvilken som helst HTML- eller XML-lignende markup; utdata er ren UTF-8-tekst. Numeriske entitetsreferanser som € og € dekodes til sine Unicode-tegn, og et bredt sett med navngitte entiteter (&, <, >, ", ',  , ©, ®, ™, …, —, –, smarte anførselstegn) støttes. Når bevaring av linjeskift er på, blir lukketagger for p, div, li, h1–h6, br og andre blokk-elementer til nye linjer, og flere påfølgende tomme linjer slås sammen til én tom linje.

    Vanlige fallgruver og kanttilfeller

    Regex-basert fjerning av HTML er ikke en erstatning for en ekte HTML-parser når du håndterer ondsinnet inndata — det bør ikke brukes til å sanitere ubetrodd HTML før den injiseres på nytt et annet sted. Feilformet markup med tagger som ikke matcher kan gi overraskende mellomrom. Innebygde base64-bilder, skript som inneholder strenger som ser ut som tagger, og CDATA-seksjoner har alle kanttilfeller. For sanitisering på serversiden i produksjon, bruk heller et velprøvd bibliotek som DOMPurify, sanitize-html eller bleach.

    Når du bør bruke dette verktøyet vs. kode

    Bruk dette nettleserverktøyet når du trenger en engangskonvertering av en bit HTML til ren tekst — f.eks. for å rydde en skrapet side eller en kopiert e-posttekst. I applikasjonskode bør du foretrekke formålsbygde biblioteker: DOMPurify for sanitization, html-to-text eller htmlparser2 for strukturert tekstuttrekk, og Cheerio eller jsdom når du trenger å traversere DOM-en. Disse bibliotekene håndterer kanttilfeller som nestede tabeller, tegnkodingsdeklarasjoner og betingede kommentarer mer robust enn en regex-passering.