Noņemt HTML tagus
HTML ievade
Vienkārša teksta izvade
Tehniskā informācija
Kā darbojas rīks “Noņemt HTML tagus”
Ko rīks dara
“Noņemt HTML tagus” izņem no teksta visu HTML marķējumu un atgriež redzamo saturu kā vienkāršu tekstu. Tas apstrādā atverošos un aizverošos tagus, atribūtus, pašnoslēdzošos tagus, komentārus un ligzdotas struktūras. Papildu iespējas ietver biežāk sastopamo HTML entītiju atkodēšanu (&, ©, €), rindu pārtraukumu saglabāšanu pie bloka līmeņa tagiem un br elementiem, kā arī pilnīgu script un style bloku izņemšanu, lai to saturs nenonāktu izvades tekstā.
Biežākie izstrādātāju lietošanas gadījumi
Izmantojiet “Noņemt HTML tagus”, lai pārvērstu bagātināta teksta e-pasta vai CMS saturu par vienkāršu tekstu SMS kopsavilkumiem, attīrītu savākto HTML pirms tā saglabāšanas meklēšanas indeksā, izvilktu raksta lasāmo saturu apkopošanai vai sakoptu starpliktuves datus pēc kopēšanas no renderētas tīmekļa lapas. Tas palīdz arī, sagatavojot testu fiksatūras no ražošanas HTML lapām, kur svarīgs ir tikai teksta saturs.
Datu formāti, tipi vai varianti
Ievade ir jebkurš HTML vai XML tipa marķējums; izvade ir vienkāršs UTF-8 teksts. Skaitliskās entītiju atsauces, piemēram, € un €, tiek atkodētas par to Unicode rakstzīmēm, un tiek atbalstīts plašs nosaukto entītiju kopums (&, <, >, ", ', , ©, ®, ™, …, —, –, viedās pēdiņas). Ja ir ieslēgta rindu pārtraukumu saglabāšana, aizverošie tagi p, div, li, h1–h6, br un citi bloka līmeņa elementi kļūst par jaunām rindām, un secīgas tukšas rindas tiek sapludinātas vienā tukšā rindā.
Biežākās kļūdas un robežgadījumi
Uz regex balstīta HTML noņemšana nav īsta HTML parsera aizstājējs, strādājot ar ļaunprātīgu ievadi — to nevajadzētu izmantot, lai sanitizētu neuzticamu HTML pirms tā atkārtotas ievietošanas citur. Nepareizi noformēts marķējums ar nesaskaņotiem tagiem var radīt negaidītu atstarpju izvietojumu. Iegultie base64 attēli, skripti, kuros ir virknes, kas izskatās pēc tagiem, un CDATA sadaļas — visam ir savi robežgadījumi. Servera pusē ražošanas sanitizācijai tā vietā izmantojiet pārbaudītu bibliotēku, piemēram, DOMPurify, sanitize-html vai bleach.
Kad izmantot šo rīku, nevis kodu
Izmantojiet šo pārlūka rīku, kad nepieciešama vienreizēja HTML gabala pārvēršana par vienkāršu tekstu — piemēram, sakopjot savāktu lapu vai nokopētu e-pasta saturu. Lietotnes kodā dodiet priekšroku mērķtiecīgām bibliotēkām: DOMPurify sanitizācijai, html-to-text vai htmlparser2 strukturētai teksta izvilkšanai, un Cheerio vai jsdom, kad nepieciešams izstaigāt DOM. Šīs bibliotēkas apstrādā robežgadījumus, piemēram, ligzdotas tabulas, kodējuma deklarācijas un nosacītos komentārus, daudz robustāk nekā regex caurlaide.