DevToys Web Pro iconDevToys Web ProBlog
Valora'ns:
Prova l'extensió del navegador:

Elimina les etiquetes HTML

10 etiquetes eliminades245 caràcters eliminats

Entrada HTML

  • Sortida de text pla

  • Detalls tècnics

    Com funciona l'eina per eliminar etiquetes HTML

    Què fa l’eina

    Eliminar etiquetes HTML suprimeix tot el marcatge HTML del text i retorna el contingut visible com a text pla. Gestiona etiquetes d'obertura i tancament, atributs, etiquetes autocontenidores, comentaris i estructures imbricades. Els comportaments opcionals inclouen descodificar entitats HTML comunes (&, ©, €), preservar salts de línia en etiquetes de nivell de bloc i elements br, i eliminar completament els blocs script i style perquè el seu contingut no es filtri a la sortida.

    Casos d’ús habituals per a desenvolupadors

    Utilitza Eliminar etiquetes HTML per convertir correus de text enriquit o contingut d'un CMS a text pla per a resums per SMS, sanejar HTML extret abans d'emmagatzemar-lo en un índex de cerca, extreure el contingut llegible d'un article per a la resumització o netejar dades del porta-retalls després de copiar des d'una pàgina web renderitzada. També ajuda a l'hora de preparar fixtures de prova a partir de pàgines HTML de producció on només importa el contingut textual.

    Formats, tipus o variants de dades

    L'entrada és qualsevol marcatge HTML o amb sabor XML; la sortida és text pla UTF-8. Les referències d'entitats numèriques com € i € es descodifiquen als seus caràcters Unicode, i s'admet un ampli conjunt d'entitats amb nom (&, <, >, ", ',  , ©, ®, ™, …, —, –, cometes tipogràfiques). Quan la preservació de salts de línia està activada, les etiquetes de tancament de p, div, li, h1–h6, br i altres elements de nivell de bloc es converteixen en salts de línia i les línies en blanc consecutives es col·lapsen en una sola línia en blanc.

    Errors habituals i casos límit

    Eliminar HTML amb regex no substitueix un analitzador HTML real quan es tracta d'entrada maliciosa: no s'ha d'utilitzar per sanejar HTML no fiable abans de reinjectar-lo en un altre lloc. El marcatge malformat amb etiquetes desparellades pot produir espais en blanc sorprenents. Les imatges base64 incrustades, els scripts que contenen cadenes que semblen etiquetes i les seccions CDATA tenen casos límit. Per a un sanejament de producció al servidor, utilitza una biblioteca provada en batalla com DOMPurify, sanitize-html o bleach.

    Quan utilitzar aquesta eina vs codi

    Utilitza aquesta eina del navegador quan necessitis una conversió d'un sol cop d'un tros d'HTML a text pla — p. ex. netejar una pàgina extreta o el cos d'un correu copiat. En codi d'aplicació, prefereix biblioteques específiques: DOMPurify per al sanejament, html-to-text o htmlparser2 per a l'extracció de text estructurat, i Cheerio o jsdom quan necessitis recórrer el DOM. Aquestes biblioteques gestionen casos límit com taules imbricades, declaracions de codificació i comentaris condicionals de manera més robusta que un pas amb regex.