DevToys Web Pro iconDevToys Web ProTinklaraštis
Įvertinkite mus:
Išbandykite naršyklės plėtinį:

Pašalinti HTML žymas

10 žymos pašalintos245 simbolių pašalinta

HTML įvestis

  • Paprasto teksto išvestis

  • Techninė informacija

    Kaip veikia HTML žymų šalinimo įrankis

    Ką daro įrankis

    Strip HTML Tags pašalina visą HTML žymėjimą iš teksto ir grąžina matomą turinį kaip paprastą tekstą. Jis apdoroja atidarančias ir uždarančias žymas, atributus, savaime užsidarančias žymas, komentarus ir įdėtines struktūras. Pasirenkamos elgsenos apima dažnų HTML esybių dekodavimą (&, ©, €), eilučių lūžių išsaugojimą ties blokinio lygio žymomis ir br elementais, taip pat visišką script ir style blokų pašalinimą, kad jų turinys nepatektų į išvestį.

    Dažniausi kūrėjų naudojimo atvejai

    Naudokite Strip HTML Tags, kad paverstumėte raiškiojo teksto el. laiškus ar TVS turinį į paprastą tekstą SMS santraukoms, išvalytumėte nuskaitytą HTML prieš saugodami jį paieškos indekse, ištrauktumėte skaitomą straipsnio turinį santraukai, arba sutvarkytumėte iškarpinės duomenis po kopijavimo iš atvaizduoto tinklalapio. Tai taip pat padeda ruošiant testinius fikstūrus iš gamybinių HTML puslapių, kai svarbus tik tekstinis turinys.

    Duomenų formatai, tipai arba variantai

    Įvestis gali būti bet koks HTML ar XML tipo žymėjimas; išvestis — paprastas UTF-8 tekstas. Skaitinės esybių nuorodos, tokios kaip € ir €, dekoduojamos į atitinkamus Unicode simbolius, o platus vardinių esybių rinkinys (&, <, >, ", ',  , ©, ®, ™, …, —, –, išmaniosios kabutės) yra palaikomas. Kai įjungtas eilučių lūžių išsaugojimas, uždarančios p, div, li, h1–h6, br ir kitų blokinio lygio elementų žymos virsta naujomis eilutėmis, o nuoseklios tuščios eilutės sutraukiamos į vieną tuščią eilutę.

    Dažniausios klaidos ir kraštiniai atvejai

    Regex pagrįstas HTML šalinimas nėra tikro HTML analizatoriaus pakaitalas dirbant su kenkėjiška įvestimi — jo nereikėtų naudoti nepatikimam HTML sanitizuoti prieš vėl įterpiant jį kitur. Netaisyklingas žymėjimas su nesutampančiomis žymomis gali sukelti netikėtą tarpų elgseną. Įterptos base64 nuotraukos, skriptai su eilutėmis, panašiomis į žymas, ir CDATA sekcijos turi kraštinių atvejų. Serverio pusės gamybiniam sanitizavimui vietoje to naudokite patikrintą biblioteką, pvz., DOMPurify, sanitize-html arba bleach.

    Kada naudoti šį įrankį, o kada kodą

    Naudokite šį naršyklės įrankį, kai reikia vienkartinio HTML gabalo konvertavimo į paprastą tekstą — pvz., valant nuskaitytą puslapį ar nukopijuotą el. laiško turinį. Programos kode teikite pirmenybę specializuotoms bibliotekoms: DOMPurify sanitizavimui, html-to-text arba htmlparser2 struktūruotam teksto išgavimui, ir Cheerio arba jsdom, kai reikia pereiti per DOM. Šios bibliotekos patikimiau nei regex perėjimas apdoroja kraštinius atvejus, tokius kaip įdėtinės lentelės, koduotės deklaracijos ir sąlyginiai komentarai.