DevToys Web Pro iconDevToys Web ProBlog
Valutaci:
Prova l'estensione del browser:

Rimuovi tag HTML

10 tag rimossi245 caratteri rimossi

Input HTML

  • Output in testo semplice

  • Dettagli tecnici

    Come funziona lo strumento Rimuovi tag HTML

    Cosa fa lo strumento

    Rimuovi tag HTML elimina tutto il markup HTML dal testo e restituisce il contenuto visibile come testo semplice. Gestisce tag di apertura e chiusura, attributi, tag autochiudenti, commenti e strutture annidate. I comportamenti opzionali includono la decodifica delle entità HTML comuni (&, ©, €), la preservazione delle interruzioni di riga nei tag a livello di blocco e negli elementi br, e la rimozione completa dei blocchi script e style in modo che i loro contenuti non finiscano nell’output.

    Casi d’uso comuni per sviluppatori

    Usa Rimuovi tag HTML per convertire email in rich text o contenuti CMS in testo semplice per riepiloghi SMS, sanificare HTML estratto prima di archiviarlo in un indice di ricerca, estrarre il contenuto leggibile di un articolo per la sintesi, o ripulire i dati negli appunti dopo aver copiato da una pagina web renderizzata. È utile anche quando prepari fixture di test a partire da pagine HTML di produzione in cui conta solo il contenuto testuale.

    Formati, tipi o varianti dei dati

    L’input può essere qualsiasi markup in stile HTML o XML; l’output è testo UTF-8 semplice. I riferimenti a entità numeriche come € e € vengono decodificati nei rispettivi caratteri Unicode ed è supportato un ampio insieme di entità con nome (&, <, >, ", ',  , ©, ®, ™, …, —, –, virgolette tipografiche). Quando la preservazione delle interruzioni di riga è attiva, i tag di chiusura per p, div, li, h1–h6, br e altri elementi a livello di blocco diventano nuove righe e le righe vuote consecutive vengono ridotte a una singola riga vuota.

    Errori comuni e casi limite

    La rimozione dei tag HTML basata su regex non sostituisce un vero parser HTML quando si gestiscono input malevoli: non dovrebbe essere usata per sanificare HTML non fidato prima di reiniettarlo altrove. Markup malformato con tag non corrispondenti può produrre spaziatura inattesa. Immagini base64 incorporate, script che contengono stringhe che sembrano tag e sezioni CDATA presentano tutti casi limite. Per la sanificazione lato server in produzione usa invece una libreria collaudata come DOMPurify, sanitize-html o bleach.

    Quando usare questo strumento rispetto al codice

    Usa questo strumento nel browser quando ti serve una conversione una tantum di un blocco di HTML in testo semplice, ad esempio per ripulire una pagina estratta o il corpo di un’email copiata. Nel codice dell’applicazione, preferisci librerie dedicate: DOMPurify per la sanificazione, html-to-text o htmlparser2 per l’estrazione strutturata del testo, e Cheerio o jsdom quando devi attraversare il DOM. Queste librerie gestiscono casi limite come tabelle annidate, dichiarazioni di codifica e commenti condizionali in modo più robusto di un passaggio con regex.