Удаление HTML-тегов
Ввод HTML
Вывод простого текста
Технические детали
Как работает инструмент Strip HTML Tags
Что делает инструмент
Strip HTML Tags удаляет всю HTML-разметку из текста и возвращает видимое содержимое как обычный текст. Он обрабатывает открывающие и закрывающие теги, атрибуты, самозакрывающиеся теги, комментарии и вложенные структуры. Дополнительные режимы включают декодирование распространённых HTML-сущностей (&, ©, €), сохранение переносов строк на блочных тегах и элементах br, а также полное удаление блоков script и style, чтобы их содержимое не попадало в результат.
Распространенные сценарии использования для разработчиков
Используйте Strip HTML Tags, чтобы преобразовать rich-text письма или контент CMS в обычный текст для SMS-дайджестов, очистить собранный HTML перед сохранением в поисковый индекс, извлечь читаемое содержимое статьи для суммаризации или привести в порядок данные буфера обмена после копирования с отрендеренной веб-страницы. Это также полезно при подготовке тестовых фикстур из продакшен-HTML-страниц, где важен только текст.
Форматы данных, типы или варианты
Входные данные — любая разметка в стиле HTML или XML; выход — обычный текст UTF-8. Числовые ссылки на сущности, такие как € и €, декодируются в соответствующие Unicode-символы, а также поддерживается широкий набор именованных сущностей (&, <, >, ", ', , ©, ®, ™, …, —, –, «умные» кавычки). При включённом сохранении переносов строк закрывающие теги p, div, li, h1–h6, br и других блочных элементов превращаются в переводы строки, а последовательные пустые строки схлопываются до одной пустой строки.
Распространенные ошибки и крайние случаи
Удаление HTML с помощью regex не заменяет полноценный HTML-парсер при работе со злонамеренным вводом — его не следует использовать для очистки недоверенного HTML перед повторной вставкой куда-либо. Некорректная разметка с несоответствующими тегами может давать неожиданные пробелы. Встроенные base64-изображения, скрипты со строками, похожими на теги, и секции CDATA — всё это имеет пограничные случаи. Для серверной продакшен-санитизации используйте проверенную библиотеку, например DOMPurify, sanitize-html или bleach.
Когда использовать этот инструмент, а когда — код
Используйте этот браузерный инструмент, когда нужна разовая конвертация фрагмента HTML в обычный текст — например, чтобы очистить собранную страницу или скопированное тело письма. В коде приложения предпочтительнее специализированные библиотеки: DOMPurify для санитизации, html-to-text или htmlparser2 для структурированного извлечения текста, и Cheerio или jsdom, когда нужно обходить DOM. Эти библиотеки надёжнее, чем проход regex, обрабатывают пограничные случаи вроде вложенных таблиц, деклараций кодировки и условных комментариев.