Poista HTML-tunnisteet
HTML-syöte
Pelkkä tekstimuotoinen tuloste
Tekniset tiedot
Miten Strip HTML Tags -työkalu toimii
Mitä työkalu tekee
Strip HTML Tags poistaa tekstistä kaiken HTML-merkinnän ja palauttaa näkyvän sisällön pelkkänä tekstinä. Se käsittelee avaus- ja sulkutagit, attribuutit, itse sulkeutuvat tagit, kommentit ja sisäkkäiset rakenteet. Valinnaisiin toimintoihin kuuluu yleisten HTML-entiteettien purku (&, ©, €), rivinvaihtojen säilyttäminen lohkotason tageissa ja br-elementeissä sekä script- ja style-lohkojen poistaminen kokonaan, jotta niiden sisältö ei vuoda tulosteeseen.
Yleiset kehittäjien käyttötapaukset
Käytä Strip HTML Tags -työkalua muuntaaksesi rich text -sähköpostin tai CMS-sisällön pelkäksi tekstiksi SMS-koosteita varten, siivotaksesi kaavitun HTML:n ennen sen tallentamista hakuindeksiin, poimiaksesi artikkelin luettavan sisällön tiivistämistä varten tai puhdistaaksesi leikepöytädatan kopioinnin jälkeen renderöidyltä verkkosivulta. Se auttaa myös testifixturejen valmistelussa tuotannon HTML-sivuista, kun vain tekstisisällöllä on merkitystä.
Tietomuodot, tyypit tai variantit
Syöte voi olla mitä tahansa HTML- tai XML-tyyppistä merkkausta; tuloste on pelkkää UTF-8-tekstiä. Numeeriset entiteettiviittaukset kuten € ja € puretaan Unicode-merkeiksi, ja laaja joukko nimettyjä entiteettejä (&, <, >, ", ', , ©, ®, ™, …, —, –, älykkäät lainausmerkit) on tuettu. Kun rivinvaihtojen säilytys on päällä, p-, div-, li-, h1–h6-, br- ja muiden lohkotason elementtien sulkutagit muuttuvat rivinvaihdoiksi ja peräkkäiset tyhjät rivit tiivistyvät yhdeksi tyhjäksi riviksi.
Yleiset sudenkuopat ja reunatapaukset
Regex-pohjainen HTML:n poistaminen ei korvaa oikeaa HTML-parseria haitallisen syötteen kanssa — sitä ei pidä käyttää epäluotettavan HTML:n sanitointiin ennen sen uudelleen upottamista muualle. Virheellinen merkkaus, jossa tagit eivät täsmää, voi tuottaa yllättävää välilyöntikäyttäytymistä. Upotetut base64-kuvat, skriptit jotka sisältävät tageilta näyttäviä merkkijonoja, sekä CDATA-osiot sisältävät kaikki reunatapauksia. Palvelinpuolen tuotantosanitointiin käytä sen sijaan taistelutestattua kirjastoa, kuten DOMPurify, sanitize-html tai bleach.
Milloin käyttää tätä työkalua vs. koodia
Käytä tätä selaintyökalua, kun tarvitset kertaluonteisen muunnoksen HTML-pätkästä pelkäksi tekstiksi — esim. kaavitun sivun tai kopioidun sähköpostirungon siivoamiseen. Sovelluskoodissa suosi tarkoitukseen tehtyjä kirjastoja: DOMPurify sanitointiin, html-to-text tai htmlparser2 rakenteiseen tekstin poimintaan, ja Cheerio tai jsdom, kun sinun täytyy käydä DOM läpi. Nämä kirjastot käsittelevät reunatapauksia, kuten sisäkkäisiä taulukoita, koodausmäärittelyjä ja ehdollisia kommentteja, luotettavammin kuin regex-ajokerta.