Eemalda HTML-sildid
HTML-sisend
Lihtteksti väljund
Tehnilised üksikasjad
Kuidas HTML-siltide eemaldamise tööriist töötab
Mida tööriist teeb
Strip HTML Tags eemaldab tekstist kogu HTML-märgistuse ja tagastab nähtava sisu lihttekstina. See käsitleb avavaid ja sulgevaid silte, atribuute, isesulguvaid silte, kommentaare ja pesastatud struktuure. Valikulised käitumised hõlmavad levinud HTML-olemite dekodeerimist (&, ©, €), reavahetuste säilitamist plokitaseme siltide ja br-elementide juures ning script- ja style-plokkide täielikku eemaldamist, et nende sisu ei lekiks väljundisse.
Levinud kasutusjuhtumid arendajatele
Kasuta Strip HTML Tags tööriista, et teisendada rikastekstiga e-kirjad või CMS-i sisu lihttekstiks SMS-kokkuvõtete jaoks, puhastada kraabitud HTML enne selle salvestamist otsinguindeksisse, eraldada artikli loetav sisu kokkuvõtete tegemiseks või korrastada lõikelaua andmeid pärast kopeerimist renderdatud veebilehelt. See aitab ka testandmete ettevalmistamisel tootmise HTML-lehtedest, kus oluline on ainult tekstiline sisu.
Andmevormingud, tüübid või variandid
Sisendiks sobib mis tahes HTML- või XML-laadne märgistus; väljund on lihtne UTF-8 tekst. Numbrilised olemi viited nagu € ja € dekodeeritakse nende Unicode'i märkideks ning toetatud on lai valik nimelisi olemeid (&, <, >, ", ', , ©, ®, ™, …, —, –, nutikad jutumärgid). Kui reavahetuste säilitamine on sisse lülitatud, muutuvad p, div, li, h1–h6, br ja teiste plokitaseme elementide sulgevad sildid reavahetusteks ning järjestikused tühjad read koondatakse üheks tühjaks reaks.
Levinud komistuskivid ja erijuhud
Regexil põhinev HTML-i eemaldamine ei asenda päris HTML-parserit pahatahtliku sisendi korral — seda ei tohiks kasutada usaldamatu HTML-i sanitiseerimiseks enne selle uuesti kuskile sisestamist. Vigane märgistus sobimatute siltidega võib tekitada üllatavat tühikukasutust. Manustatud base64-pildid, skriptid, mis sisaldavad siltide moodi stringe, ja CDATA jaotised on kõik erijuhtumitega. Serveripoolseks tootmiskeskkonna sanitiseerimiseks kasuta selle asemel laialt testitud teeki, nagu DOMPurify, sanitize-html või bleach.
Millal kasutada seda tööriista vs koodi
Kasuta seda brauseritööriista, kui vajad ühekordset HTML-i lõigu teisendamist lihttekstiks — nt kraabitud lehe või kopeeritud e-kirja sisu puhastamiseks. Rakenduse koodis eelista sihtotstarbelisi teeke: DOMPurify sanitiseerimiseks, html-to-text või htmlparser2 struktureeritud teksti eraldamiseks ning Cheerio või jsdom, kui vajad DOM-is liikumist. Need teegid käsitlevad erijuhtumeid, nagu pesastatud tabelid, kodeeringudeklaratsioonid ja tingimuslikud kommentaarid, robustsemalt kui regexi läbikäik.