What does the Strip HTML Tags tool do?

It removes all HTML markup from text — opening and closing tags, attributes, comments, and blocks — and returns only the visible text content. All processing happens in your browser; nothing is sent to a server.

Does it decode HTML entities like & and €?

Yes. When the 'Decode entities' option is on (default), it decodes both named entities (&, ©, —, ) and numeric references (€, €). Turn the option off to keep entities literal.

Will line breaks be preserved?

By default yes. and block-level closing tags ( , , , ...) become newlines so the output reads naturally. Disable 'Preserve line breaks' to collapse everything to a single space-separated line.

Are and contents removed?

Yes — by default both are stripped entirely along with their contents, so you don't end up with stray CSS or JavaScript in the plain-text output. Both behaviors can be toggled individually.

Noņemt HTML tagus

10 tagi noņemti245 rakstzīmes noņemtas

Saglabāt rindu pārtraukumus

Atkodēt entītijas

Noņemt skriptus

Noņemt stilus

HTML ievade

Vienkārša teksta izvade

Welcome to DevToys Web Pro

  This is a sample paragraph with a link.

    List item one

    List item two & more

  Special entities: © ™ — … €

Tehniskā informācija

Kā darbojas rīks “Noņemt HTML tagus”

Ko rīks dara

“Noņemt HTML tagus” izņem no teksta visu HTML marķējumu un atgriež redzamo saturu kā vienkāršu tekstu. Tas apstrādā atverošos un aizverošos tagus, atribūtus, pašnoslēdzošos tagus, komentārus un ligzdotas struktūras. Papildu iespējas ietver biežāk sastopamo HTML entītiju atkodēšanu (&, ©, €), rindu pārtraukumu saglabāšanu pie bloka līmeņa tagiem un br elementiem, kā arī pilnīgu script un style bloku izņemšanu, lai to saturs nenonāktu izvades tekstā.

Biežākie izstrādātāju lietošanas gadījumi

Izmantojiet “Noņemt HTML tagus”, lai pārvērstu bagātināta teksta e-pasta vai CMS saturu par vienkāršu tekstu SMS kopsavilkumiem, attīrītu savākto HTML pirms tā saglabāšanas meklēšanas indeksā, izvilktu raksta lasāmo saturu apkopošanai vai sakoptu starpliktuves datus pēc kopēšanas no renderētas tīmekļa lapas. Tas palīdz arī, sagatavojot testu fiksatūras no ražošanas HTML lapām, kur svarīgs ir tikai teksta saturs.

Datu formāti, tipi vai varianti

Ievade ir jebkurš HTML vai XML tipa marķējums; izvade ir vienkāršs UTF-8 teksts. Skaitliskās entītiju atsauces, piemēram, € un €, tiek atkodētas par to Unicode rakstzīmēm, un tiek atbalstīts plašs nosaukto entītiju kopums (&, <, >, ", ',  , ©, ®, ™, …, —, –, viedās pēdiņas). Ja ir ieslēgta rindu pārtraukumu saglabāšana, aizverošie tagi p, div, li, h1–h6, br un citi bloka līmeņa elementi kļūst par jaunām rindām, un secīgas tukšas rindas tiek sapludinātas vienā tukšā rindā.

Biežākās kļūdas un robežgadījumi

Uz regex balstīta HTML noņemšana nav īsta HTML parsera aizstājējs, strādājot ar ļaunprātīgu ievadi — to nevajadzētu izmantot, lai sanitizētu neuzticamu HTML pirms tā atkārtotas ievietošanas citur. Nepareizi noformēts marķējums ar nesaskaņotiem tagiem var radīt negaidītu atstarpju izvietojumu. Iegultie base64 attēli, skripti, kuros ir virknes, kas izskatās pēc tagiem, un CDATA sadaļas — visam ir savi robežgadījumi. Servera pusē ražošanas sanitizācijai tā vietā izmantojiet pārbaudītu bibliotēku, piemēram, DOMPurify, sanitize-html vai bleach.

Kad izmantot šo rīku, nevis kodu

Izmantojiet šo pārlūka rīku, kad nepieciešama vienreizēja HTML gabala pārvēršana par vienkāršu tekstu — piemēram, sakopjot savāktu lapu vai nokopētu e-pasta saturu. Lietotnes kodā dodiet priekšroku mērķtiecīgām bibliotēkām: DOMPurify sanitizācijai, html-to-text vai htmlparser2 strukturētai teksta izvilkšanai, un Cheerio vai jsdom, kad nepieciešams izstaigāt DOM. Šīs bibliotēkas apstrādā robežgadījumus, piemēram, ligzdotas tabulas, kodējuma deklarācijas un nosacītos komentārus, daudz robustāk nekā regex caurlaide.