DevToys Web Pro iconDevToys Web ProБлог
Ocenite nas:
Isprobajte ekstenziju za pregledač:

Uklanjanje HTML oznaka

10 uklonjene oznake245 uklonjeni znakovi

HTML ulaz

  • Izlaz kao običan tekst

  • Tehnički detalji

    Kako radi alat za uklanjanje HTML oznaka

    Šta alat radi

    Strip HTML Tags uklanja sav HTML markup iz teksta i vraća vidljivi sadržaj kao običan tekst. Obradjuje otvarajuće i zatvarajuće oznake, atribute, samo-zatvarajuće oznake, komentare i ugnježdene strukture. Opciona ponašanja uključuju dekodiranje uobičajenih HTML entiteta (&, ©, €), očuvanje preloma redova kod blokovskih oznaka i br elemenata, kao i potpuno uklanjanje script i style blokova kako njihov sadržaj ne bi „procurio“ u izlaz.

    Uobičajeni slučajevi upotrebe za programere

    Koristite Strip HTML Tags da konvertujete rich-text email ili CMS sadržaj u običan tekst za SMS sažetke, da sanitizujete preuzeti (scraped) HTML pre nego što ga sačuvate u indeksu pretrage, da izvučete čitljiv sadržaj članka za sažimanje ili da očistite podatke iz clipboard-a nakon kopiranja sa renderovane veb stranice. Takođe pomaže pri pripremi test fixtura iz produkcionih HTML stranica kada je bitan samo tekstualni sadržaj.

    Formati podataka, tipovi ili varijante

    Ulaz može biti bilo koji HTML ili XML-sličan markup; izlaz je običan UTF-8 tekst. Numeričke reference entiteta poput € i € dekodiraju se u svoje Unicode znakove, a podržan je i širok skup imenovanih entiteta (&, <, >, ", ',  , ©, ®, ™, …, —, –, pametni navodnici). Kada je uključeno očuvanje preloma redova, zatvarajuće oznake za p, div, li, h1–h6, br i druge blokovske elemente postaju novi redovi, a uzastopni prazni redovi se svode na jedan prazan red.

    Uobičajene greške i rubni slučajevi

    Uklanjanje HTML-a zasnovano na regex-u nije zamena za pravi HTML parser kada se radi sa zlonamernim ulazom — ne treba ga koristiti za sanitizaciju nepouzdanog HTML-a pre ponovnog ubacivanja na drugo mesto. Neispravan markup sa nepodudarnim oznakama može da proizvede neočekivan razmak. Ugrađene base64 slike, skripte koje sadrže stringove koji liče na oznake i CDATA sekcije imaju svoje rubne slučajeve. Za serversku produkcionu sanitizaciju koristite proverenu biblioteku kao što su DOMPurify, sanitize-html ili bleach.

    Kada koristiti ovaj alat umesto koda

    Koristite ovaj alat u pregledaču kada vam treba jednokratna konverzija dela HTML-a u običan tekst — npr. čišćenje preuzete stranice ili kopiranog tela email-a. U aplikacionom kodu, prednost dajte namenskim bibliotekama: DOMPurify za sanitizaciju, html-to-text ili htmlparser2 za strukturisano извлачење teksta, i Cheerio ili jsdom kada treba da prolazite kroz DOM. Ove biblioteke robusnije obrađuju rubne slučajeve kao što su ugnježdene tabele, deklaracije enkodiranja i uslovni komentari nego prolaz regex-om.