DevToys Web Pro iconDevToys Web ProBlogi
Hinda meid:
Proovi brauserilaiendust:

Eemalda HTML-sildid

10 sildid eemaldatud245 märgid eemaldatud

HTML-sisend

  • Lihtteksti väljund

  • Tehnilised üksikasjad

    Kuidas HTML-siltide eemaldamise tööriist töötab

    Mida tööriist teeb

    Strip HTML Tags eemaldab tekstist kogu HTML-märgistuse ja tagastab nähtava sisu lihttekstina. See käsitleb avavaid ja sulgevaid silte, atribuute, isesulguvaid silte, kommentaare ja pesastatud struktuure. Valikulised käitumised hõlmavad levinud HTML-olemite dekodeerimist (&, ©, €), reavahetuste säilitamist plokitaseme siltide ja br-elementide juures ning script- ja style-plokkide täielikku eemaldamist, et nende sisu ei lekiks väljundisse.

    Levinud kasutusjuhtumid arendajatele

    Kasuta Strip HTML Tags tööriista, et teisendada rikastekstiga e-kirjad või CMS-i sisu lihttekstiks SMS-kokkuvõtete jaoks, puhastada kraabitud HTML enne selle salvestamist otsinguindeksisse, eraldada artikli loetav sisu kokkuvõtete tegemiseks või korrastada lõikelaua andmeid pärast kopeerimist renderdatud veebilehelt. See aitab ka testandmete ettevalmistamisel tootmise HTML-lehtedest, kus oluline on ainult tekstiline sisu.

    Andmevormingud, tüübid või variandid

    Sisendiks sobib mis tahes HTML- või XML-laadne märgistus; väljund on lihtne UTF-8 tekst. Numbrilised olemi viited nagu € ja € dekodeeritakse nende Unicode'i märkideks ning toetatud on lai valik nimelisi olemeid (&, <, >, ", ',  , ©, ®, ™, …, —, –, nutikad jutumärgid). Kui reavahetuste säilitamine on sisse lülitatud, muutuvad p, div, li, h1–h6, br ja teiste plokitaseme elementide sulgevad sildid reavahetusteks ning järjestikused tühjad read koondatakse üheks tühjaks reaks.

    Levinud komistuskivid ja erijuhud

    Regexil põhinev HTML-i eemaldamine ei asenda päris HTML-parserit pahatahtliku sisendi korral — seda ei tohiks kasutada usaldamatu HTML-i sanitiseerimiseks enne selle uuesti kuskile sisestamist. Vigane märgistus sobimatute siltidega võib tekitada üllatavat tühikukasutust. Manustatud base64-pildid, skriptid, mis sisaldavad siltide moodi stringe, ja CDATA jaotised on kõik erijuhtumitega. Serveripoolseks tootmiskeskkonna sanitiseerimiseks kasuta selle asemel laialt testitud teeki, nagu DOMPurify, sanitize-html või bleach.

    Millal kasutada seda tööriista vs koodi

    Kasuta seda brauseritööriista, kui vajad ühekordset HTML-i lõigu teisendamist lihttekstiks — nt kraabitud lehe või kopeeritud e-kirja sisu puhastamiseks. Rakenduse koodis eelista sihtotstarbelisi teeke: DOMPurify sanitiseerimiseks, html-to-text või htmlparser2 struktureeritud teksti eraldamiseks ning Cheerio või jsdom, kui vajad DOM-is liikumist. Need teegid käsitlevad erijuhtumeid, nagu pesastatud tabelid, kodeeringudeklaratsioonid ja tingimuslikud kommentaarid, robustsemalt kui regexi läbikäik.