DevToys Web Pro iconDevToys Web ProBlog
Ocenite nas:
Preizkusite razširitev brskalnika:

Odstrani HTML oznake

10 oznak odstranjenih245 znakov odstranjenih

Vnos HTML

  • Izhod v navadnem besedilu

  • Tehnične podrobnosti

    Kako deluje orodje Strip HTML Tags

    Kaj orodje počne

    Strip HTML Tags odstrani vso HTML oznako iz besedila in vrne vidno vsebino kot golo besedilo. Obdeluje začetne in končne oznake, atribute, samozapiralne oznake, komentarje in gnezdene strukture. Izbirna vedenja vključujejo dekodiranje pogostih HTML entitet (&, ©, €), ohranjanje prelomov vrstic pri blokovnih oznakah in elementih br ter popolno odstranjevanje blokov script in style, da njihova vsebina ne uide v izhod.

    Pogosti primeri uporabe za razvijalce

    Strip HTML Tags uporabite za pretvorbo e-pošte z obogatenim besedilom ali vsebine iz CMS v golo besedilo za SMS povzetke, za sanacijo postrganega HTML pred shranjevanjem v iskalni indeks, za izluščenje berljive vsebine članka za povzemanje ali za čiščenje podatkov odložišča po kopiranju z izrisane spletne strani. Pomaga tudi pri pripravi testnih primerov iz produkcijskih HTML strani, kjer je pomembna le besedilna vsebina.

    Podatkovni formati, tipi ali različice

    Vhod je poljubna oznaka v slogu HTML ali XML; izhod je golo besedilo UTF-8. Številske reference entitet, kot sta € in €, se dekodirajo v svoje znake Unicode, podprt pa je tudi širok nabor poimenovanih entitet (&, <, >, ", ',  , ©, ®, ™, …, —, –, pametni narekovaji). Ko je ohranjanje prelomov vrstic vklopljeno, se končne oznake za p, div, li, h1–h6, br in druge blokovne elemente pretvorijo v nove vrstice, zaporedne prazne vrstice pa se skrčijo na eno prazno vrstico.

    Pogoste pasti in robni primeri

    Odstranjevanje HTML z regexi ni nadomestilo za pravi HTML razčlenjevalnik pri delu z zlonamernim vhodom — ne sme se uporabljati za sanacijo nezaupanja vrednega HTML pred ponovnim vbrizgavanjem drugam. Napačno oblikovana oznaka z neusklajenimi oznakami lahko povzroči presenetljive presledke. Vdelane slike base64, skripti, ki vsebujejo nize, podobne oznakam, in odseki CDATA imajo posebne robne primere. Za strežniško produkcijsko sanacijo raje uporabite preizkušeno knjižnico, kot so DOMPurify, sanitize-html ali bleach.

    Kdaj uporabiti to orodje namesto kode

    Orodje v brskalniku uporabite, ko potrebujete enkratno pretvorbo kosa HTML v golo besedilo — npr. čiščenje postrgane strani ali kopiranega telesa e-pošte. V aplikacijski kodi raje uporabite namenske knjižnice: DOMPurify za sanacijo, html-to-text ali htmlparser2 za strukturirano izluščenje besedila ter Cheerio ali jsdom, ko morate prehoditi DOM. Te knjižnice bolj robustno kot regex prehod obravnavajo robne primere, kot so gnezdene tabele, deklaracije kodiranja in pogojni komentarji.