Elimina les etiquetes HTML
Entrada HTML
Sortida de text pla
Detalls tècnics
Com funciona l'eina per eliminar etiquetes HTML
Què fa l’eina
Eliminar etiquetes HTML suprimeix tot el marcatge HTML del text i retorna el contingut visible com a text pla. Gestiona etiquetes d'obertura i tancament, atributs, etiquetes autocontenidores, comentaris i estructures imbricades. Els comportaments opcionals inclouen descodificar entitats HTML comunes (&, ©, €), preservar salts de línia en etiquetes de nivell de bloc i elements br, i eliminar completament els blocs script i style perquè el seu contingut no es filtri a la sortida.
Casos d’ús habituals per a desenvolupadors
Utilitza Eliminar etiquetes HTML per convertir correus de text enriquit o contingut d'un CMS a text pla per a resums per SMS, sanejar HTML extret abans d'emmagatzemar-lo en un índex de cerca, extreure el contingut llegible d'un article per a la resumització o netejar dades del porta-retalls després de copiar des d'una pàgina web renderitzada. També ajuda a l'hora de preparar fixtures de prova a partir de pàgines HTML de producció on només importa el contingut textual.
Formats, tipus o variants de dades
L'entrada és qualsevol marcatge HTML o amb sabor XML; la sortida és text pla UTF-8. Les referències d'entitats numèriques com € i € es descodifiquen als seus caràcters Unicode, i s'admet un ampli conjunt d'entitats amb nom (&, <, >, ", ', , ©, ®, ™, …, —, –, cometes tipogràfiques). Quan la preservació de salts de línia està activada, les etiquetes de tancament de p, div, li, h1–h6, br i altres elements de nivell de bloc es converteixen en salts de línia i les línies en blanc consecutives es col·lapsen en una sola línia en blanc.
Errors habituals i casos límit
Eliminar HTML amb regex no substitueix un analitzador HTML real quan es tracta d'entrada maliciosa: no s'ha d'utilitzar per sanejar HTML no fiable abans de reinjectar-lo en un altre lloc. El marcatge malformat amb etiquetes desparellades pot produir espais en blanc sorprenents. Les imatges base64 incrustades, els scripts que contenen cadenes que semblen etiquetes i les seccions CDATA tenen casos límit. Per a un sanejament de producció al servidor, utilitza una biblioteca provada en batalla com DOMPurify, sanitize-html o bleach.
Quan utilitzar aquesta eina vs codi
Utilitza aquesta eina del navegador quan necessitis una conversió d'un sol cop d'un tros d'HTML a text pla — p. ex. netejar una pàgina extreta o el cos d'un correu copiat. En codi d'aplicació, prefereix biblioteques específiques: DOMPurify per al sanejament, html-to-text o htmlparser2 per a l'extracció de text estructurat, i Cheerio o jsdom quan necessitis recórrer el DOM. Aquestes biblioteques gestionen casos límit com taules imbricades, declaracions de codificació i comentaris condicionals de manera més robusta que un pas amb regex.