DevToys Web Pro iconDevToys Web ProBlogi
Arvostele meidät:
Kokeile selainlaajennusta:

Poista HTML-tunnisteet

10 tagia poistettu245 merkkiä poistettu

HTML-syöte

  • Pelkkä tekstimuotoinen tuloste

  • Tekniset tiedot

    Miten Strip HTML Tags -työkalu toimii

    Mitä työkalu tekee

    Strip HTML Tags poistaa tekstistä kaiken HTML-merkinnän ja palauttaa näkyvän sisällön pelkkänä tekstinä. Se käsittelee avaus- ja sulkutagit, attribuutit, itse sulkeutuvat tagit, kommentit ja sisäkkäiset rakenteet. Valinnaisiin toimintoihin kuuluu yleisten HTML-entiteettien purku (&, ©, €), rivinvaihtojen säilyttäminen lohkotason tageissa ja br-elementeissä sekä script- ja style-lohkojen poistaminen kokonaan, jotta niiden sisältö ei vuoda tulosteeseen.

    Yleiset kehittäjien käyttötapaukset

    Käytä Strip HTML Tags -työkalua muuntaaksesi rich text -sähköpostin tai CMS-sisällön pelkäksi tekstiksi SMS-koosteita varten, siivotaksesi kaavitun HTML:n ennen sen tallentamista hakuindeksiin, poimiaksesi artikkelin luettavan sisällön tiivistämistä varten tai puhdistaaksesi leikepöytädatan kopioinnin jälkeen renderöidyltä verkkosivulta. Se auttaa myös testifixturejen valmistelussa tuotannon HTML-sivuista, kun vain tekstisisällöllä on merkitystä.

    Tietomuodot, tyypit tai variantit

    Syöte voi olla mitä tahansa HTML- tai XML-tyyppistä merkkausta; tuloste on pelkkää UTF-8-tekstiä. Numeeriset entiteettiviittaukset kuten € ja € puretaan Unicode-merkeiksi, ja laaja joukko nimettyjä entiteettejä (&, <, >, ", ',  , ©, ®, ™, …, —, –, älykkäät lainausmerkit) on tuettu. Kun rivinvaihtojen säilytys on päällä, p-, div-, li-, h1–h6-, br- ja muiden lohkotason elementtien sulkutagit muuttuvat rivinvaihdoiksi ja peräkkäiset tyhjät rivit tiivistyvät yhdeksi tyhjäksi riviksi.

    Yleiset sudenkuopat ja reunatapaukset

    Regex-pohjainen HTML:n poistaminen ei korvaa oikeaa HTML-parseria haitallisen syötteen kanssa — sitä ei pidä käyttää epäluotettavan HTML:n sanitointiin ennen sen uudelleen upottamista muualle. Virheellinen merkkaus, jossa tagit eivät täsmää, voi tuottaa yllättävää välilyöntikäyttäytymistä. Upotetut base64-kuvat, skriptit jotka sisältävät tageilta näyttäviä merkkijonoja, sekä CDATA-osiot sisältävät kaikki reunatapauksia. Palvelinpuolen tuotantosanitointiin käytä sen sijaan taistelutestattua kirjastoa, kuten DOMPurify, sanitize-html tai bleach.

    Milloin käyttää tätä työkalua vs. koodia

    Käytä tätä selaintyökalua, kun tarvitset kertaluonteisen muunnoksen HTML-pätkästä pelkäksi tekstiksi — esim. kaavitun sivun tai kopioidun sähköpostirungon siivoamiseen. Sovelluskoodissa suosi tarkoitukseen tehtyjä kirjastoja: DOMPurify sanitointiin, html-to-text tai htmlparser2 rakenteiseen tekstin poimintaan, ja Cheerio tai jsdom, kun sinun täytyy käydä DOM läpi. Nämä kirjastot käsittelevät reunatapauksia, kuten sisäkkäisiä taulukoita, koodausmäärittelyjä ja ehdollisia kommentteja, luotettavammin kuin regex-ajokerta.