DevToys Web Pro iconDevToys Web ProБлог
Оценете ни:
Изпробвайте разширението за браузър:

Премахване на HTML тагове

10 премахнати тагове245 премахнати знаци

HTML вход

  • Изходен обикновен текст

  • Технически подробности

    Как работи инструментът за премахване на HTML тагове

    Какво прави инструментът

    Strip HTML Tags премахва цялата HTML маркировка от текста и връща видимото съдържание като обикновен текст. Обработва отварящи и затварящи тагове, атрибути, самозатварящи се тагове, коментари и вложени структури. По избор може да декодира често срещани HTML ентитети (&, ©, €), да запазва нови редове при блокови тагове и br елементи и да премахва изцяло script и style блоковете, така че съдържанието им да не изтича в изхода.

    Често срещани случаи на употреба от разработчици

    Използвайте Strip HTML Tags, за да преобразувате rich-text имейл или CMS съдържание в обикновен текст за SMS дайджести, да санитаризирате извлечен HTML преди да го съхраните в индекс за търсене, да извлечете четимото съдържание на статия за обобщаване или да почистите данни от клипборда след копиране от рендерирана уеб страница. Полезно е и при подготовка на тестови фикстури от production HTML страници, когато има значение само текстовото съдържание.

    Формати на данни, типове или варианти

    Входът е всякаква HTML или XML-подобна маркировка; изходът е обикновен UTF-8 текст. Числови препратки към ентитети като € и € се декодират до съответните Unicode символи, а се поддържа и широк набор от именувани ентитети (&, <, >, ", ',  , ©, ®, ™, …, —, –, „умни“ кавички). Когато е включено запазването на нови редове, затварящите тагове за p, div, li, h1–h6, br и други блокови елементи се превръщат в нови редове, а последователните празни редове се свиват до един празен ред.

    Често срещани капани и гранични случаи

    Премахването на HTML чрез regex не е заместител на истински HTML парсер при работа със злонамерен вход — не бива да се използва за санитаризиране на недоверен HTML преди повторното му вмъкване другаде. Неправилна маркировка с несъответстващи тагове може да доведе до изненадващо форматиране на празни пространства. Вградени base64 изображения, скриптове със низове, които приличат на тагове, и CDATA секции имат гранични случаи. За server-side санитаризация в production използвайте проверена библиотека като DOMPurify, sanitize-html или bleach.

    Кога да използвате този инструмент вместо код

    Използвайте този браузърен инструмент, когато ви трябва еднократно преобразуване на парче HTML в обикновен текст — напр. почистване на извлечена страница или копирано тяло на имейл. В приложния код предпочитайте специализирани библиотеки: DOMPurify за санитаризация, html-to-text или htmlparser2 за структурирано извличане на текст и Cheerio или jsdom, когато трябва да обхождате DOM. Тези библиотеки обработват по-надеждно гранични случаи като вложени таблици, декларации за кодировка и условни коментари, отколкото един regex пас.