Премахване на HTML тагове
HTML вход
Изходен обикновен текст
Технически подробности
Как работи инструментът за премахване на HTML тагове
Какво прави инструментът
Strip HTML Tags премахва цялата HTML маркировка от текста и връща видимото съдържание като обикновен текст. Обработва отварящи и затварящи тагове, атрибути, самозатварящи се тагове, коментари и вложени структури. По избор може да декодира често срещани HTML ентитети (&, ©, €), да запазва нови редове при блокови тагове и br елементи и да премахва изцяло script и style блоковете, така че съдържанието им да не изтича в изхода.
Често срещани случаи на употреба от разработчици
Използвайте Strip HTML Tags, за да преобразувате rich-text имейл или CMS съдържание в обикновен текст за SMS дайджести, да санитаризирате извлечен HTML преди да го съхраните в индекс за търсене, да извлечете четимото съдържание на статия за обобщаване или да почистите данни от клипборда след копиране от рендерирана уеб страница. Полезно е и при подготовка на тестови фикстури от production HTML страници, когато има значение само текстовото съдържание.
Формати на данни, типове или варианти
Входът е всякаква HTML или XML-подобна маркировка; изходът е обикновен UTF-8 текст. Числови препратки към ентитети като € и € се декодират до съответните Unicode символи, а се поддържа и широк набор от именувани ентитети (&, <, >, ", ', , ©, ®, ™, …, —, –, „умни“ кавички). Когато е включено запазването на нови редове, затварящите тагове за p, div, li, h1–h6, br и други блокови елементи се превръщат в нови редове, а последователните празни редове се свиват до един празен ред.
Често срещани капани и гранични случаи
Премахването на HTML чрез regex не е заместител на истински HTML парсер при работа със злонамерен вход — не бива да се използва за санитаризиране на недоверен HTML преди повторното му вмъкване другаде. Неправилна маркировка с несъответстващи тагове може да доведе до изненадващо форматиране на празни пространства. Вградени base64 изображения, скриптове със низове, които приличат на тагове, и CDATA секции имат гранични случаи. За server-side санитаризация в production използвайте проверена библиотека като DOMPurify, sanitize-html или bleach.
Кога да използвате този инструмент вместо код
Използвайте този браузърен инструмент, когато ви трябва еднократно преобразуване на парче HTML в обикновен текст — напр. почистване на извлечена страница или копирано тяло на имейл. В приложния код предпочитайте специализирани библиотеки: DOMPurify за санитаризация, html-to-text или htmlparser2 за структурирано извличане на текст и Cheerio или jsdom, когато трябва да обхождате DOM. Тези библиотеки обработват по-надеждно гранични случаи като вложени таблици, декларации за кодировка и условни коментари, отколкото един regex пас.