Pašalinti HTML žymas
HTML įvestis
Paprasto teksto išvestis
Techninė informacija
Kaip veikia HTML žymų šalinimo įrankis
Ką daro įrankis
Strip HTML Tags pašalina visą HTML žymėjimą iš teksto ir grąžina matomą turinį kaip paprastą tekstą. Jis apdoroja atidarančias ir uždarančias žymas, atributus, savaime užsidarančias žymas, komentarus ir įdėtines struktūras. Pasirenkamos elgsenos apima dažnų HTML esybių dekodavimą (&, ©, €), eilučių lūžių išsaugojimą ties blokinio lygio žymomis ir br elementais, taip pat visišką script ir style blokų pašalinimą, kad jų turinys nepatektų į išvestį.
Dažniausi kūrėjų naudojimo atvejai
Naudokite Strip HTML Tags, kad paverstumėte raiškiojo teksto el. laiškus ar TVS turinį į paprastą tekstą SMS santraukoms, išvalytumėte nuskaitytą HTML prieš saugodami jį paieškos indekse, ištrauktumėte skaitomą straipsnio turinį santraukai, arba sutvarkytumėte iškarpinės duomenis po kopijavimo iš atvaizduoto tinklalapio. Tai taip pat padeda ruošiant testinius fikstūrus iš gamybinių HTML puslapių, kai svarbus tik tekstinis turinys.
Duomenų formatai, tipai arba variantai
Įvestis gali būti bet koks HTML ar XML tipo žymėjimas; išvestis — paprastas UTF-8 tekstas. Skaitinės esybių nuorodos, tokios kaip € ir €, dekoduojamos į atitinkamus Unicode simbolius, o platus vardinių esybių rinkinys (&, <, >, ", ', , ©, ®, ™, …, —, –, išmaniosios kabutės) yra palaikomas. Kai įjungtas eilučių lūžių išsaugojimas, uždarančios p, div, li, h1–h6, br ir kitų blokinio lygio elementų žymos virsta naujomis eilutėmis, o nuoseklios tuščios eilutės sutraukiamos į vieną tuščią eilutę.
Dažniausios klaidos ir kraštiniai atvejai
Regex pagrįstas HTML šalinimas nėra tikro HTML analizatoriaus pakaitalas dirbant su kenkėjiška įvestimi — jo nereikėtų naudoti nepatikimam HTML sanitizuoti prieš vėl įterpiant jį kitur. Netaisyklingas žymėjimas su nesutampančiomis žymomis gali sukelti netikėtą tarpų elgseną. Įterptos base64 nuotraukos, skriptai su eilutėmis, panašiomis į žymas, ir CDATA sekcijos turi kraštinių atvejų. Serverio pusės gamybiniam sanitizavimui vietoje to naudokite patikrintą biblioteką, pvz., DOMPurify, sanitize-html arba bleach.
Kada naudoti šį įrankį, o kada kodą
Naudokite šį naršyklės įrankį, kai reikia vienkartinio HTML gabalo konvertavimo į paprastą tekstą — pvz., valant nuskaitytą puslapį ar nukopijuotą el. laiško turinį. Programos kode teikite pirmenybę specializuotoms bibliotekoms: DOMPurify sanitizavimui, html-to-text arba htmlparser2 struktūruotam teksto išgavimui, ir Cheerio arba jsdom, kai reikia pereiti per DOM. Šios bibliotekos patikimiau nei regex perėjimas apdoroja kraštinius atvejus, tokius kaip įdėtinės lentelės, koduotės deklaracijos ir sąlyginiai komentarai.