DevToys Web Pro iconDevToys Web ProBlog
Évaluez-nous :
Essayez l’extension de navigateur :

Supprimer les balises HTML

10 balises supprimées245 caractères supprimés

Entrée HTML

  • Sortie en texte brut

  • Détails techniques

    Comment fonctionne l’outil de suppression des balises HTML

    Ce que fait l’outil

    Strip HTML Tags supprime tout le balisage HTML d’un texte et renvoie le contenu visible sous forme de texte brut. Il gère les balises ouvrantes et fermantes, les attributs, les balises auto-fermantes, les commentaires et les structures imbriquées. Les comportements optionnels incluent le décodage des entités HTML courantes (&, ©, €), la conservation des retours à la ligne au niveau des balises de type bloc et des éléments br, ainsi que la suppression complète des blocs script et style afin que leur contenu ne se retrouve pas dans la sortie.

    Cas d’usage courants pour les développeurs

    Utilisez Strip HTML Tags pour convertir des e-mails en texte enrichi ou du contenu de CMS en texte brut pour des résumés SMS, assainir du HTML récupéré avant de le stocker dans un index de recherche, extraire le contenu lisible d’un article pour le résumer, ou nettoyer des données du presse-papiers après une copie depuis une page web rendue. Cela aide aussi à préparer des jeux de données de test à partir de pages HTML de production où seul le contenu textuel compte.

    Formats de données, types ou variantes

    L’entrée peut être n’importe quel balisage HTML ou de type XML ; la sortie est du texte UTF-8 brut. Les références d’entités numériques comme € et € sont décodées en leurs caractères Unicode, et un large ensemble d’entités nommées (&, <, >, ", ',  , ©, ®, ™, …, —, –, guillemets typographiques) est pris en charge. Lorsque la conservation des retours à la ligne est activée, les balises fermantes de p, div, li, h1–h6, br et d’autres éléments de type bloc deviennent des sauts de ligne, et les lignes vides consécutives sont réduites à une seule ligne vide.

    Pièges courants et cas limites

    La suppression de HTML basée sur des regex ne remplace pas un véritable parseur HTML lorsqu’il s’agit d’entrées malveillantes — elle ne doit pas être utilisée pour assainir du HTML non fiable avant de le réinjecter ailleurs. Un balisage mal formé avec des balises non appariées peut produire des espaces inattendus. Les images base64 intégrées, les scripts contenant des chaînes qui ressemblent à des balises et les sections CDATA ont tous des cas limites. Pour l’assainissement côté serveur en production, utilisez plutôt une bibliothèque éprouvée comme DOMPurify, sanitize-html ou bleach.

    Quand utiliser cet outil plutôt que du code

    Utilisez cet outil dans le navigateur lorsque vous avez besoin d’une conversion ponctuelle d’un bloc de HTML en texte brut — par ex. pour nettoyer une page récupérée ou le corps d’un e-mail copié. Dans le code applicatif, privilégiez des bibliothèques dédiées : DOMPurify pour l’assainissement, html-to-text ou htmlparser2 pour une extraction structurée du texte, et Cheerio ou jsdom lorsque vous devez parcourir le DOM. Ces bibliothèques gèrent plus robustement que le passage d’une regex des cas limites comme les tableaux imbriqués, les déclarations d’encodage et les commentaires conditionnels.