DevToys Web Pro iconDevToys Web ProБлог
Оцініть нас:
Спробуйте розширення для браузера:

Видалення HTML-тегів

10 теги видалено245 символів вилучено

Вхідний HTML

  • Вивід звичайного тексту

  • Технічні деталі

    Як працює інструмент видалення HTML-тегів

    Що робить інструмент

    Strip HTML Tags видаляє всю HTML-розмітку з тексту та повертає видимий вміст як звичайний текст. Він обробляє відкривальні й закривальні теги, атрибути, самозакривні теги, коментарі та вкладені структури. Додаткові опції включають декодування поширених HTML-сутностей (&, ©, €), збереження переносів рядків на блочних тегах і елементах br, а також повне видалення блоків script і style, щоб їхній вміст не потрапляв у результат.

    Поширені сценарії використання для розробників

    Використовуйте Strip HTML Tags, щоб перетворити rich-text листи або контент CMS на звичайний текст для SMS-дайджестів, очистити зібраний HTML перед збереженням у пошуковому індексі, витягти читабельний вміст статті для підсумовування або прибрати «сміття» з буфера обміну після копіювання з відрендереної вебсторінки. Це також корисно під час підготовки тестових фікстур із продакшн HTML-сторінок, де важливий лише текстовий вміст.

    Формати даних, типи або варіанти

    Вхідні дані — будь-яка HTML- або XML-подібна розмітка; вихід — звичайний UTF-8 текст. Числові посилання на сутності на кшталт € і € декодуються у відповідні символи Unicode, а також підтримується широкий набір іменованих сутностей (&, <, >, ", ',  , ©, ®, ™, …, —, –, «розумні» лапки). Коли увімкнено збереження переносів рядків, закривальні теги для p, div, li, h1–h6, br та інших блочних елементів перетворюються на нові рядки, а послідовні порожні рядки згортаються до одного порожнього рядка.

    Поширені помилки та крайові випадки

    Видалення HTML за допомогою regex не є заміною справжнього HTML-парсера під час роботи зі шкідливим введенням — його не слід використовувати для санітизації недовіреного HTML перед повторним вставлянням кудись іще. Некоректна розмітка з невідповідними тегами може давати несподівані пробіли. Вбудовані base64-зображення, скрипти з рядками, схожими на теги, і секції CDATA мають свої крайові випадки. Для серверної санітизації в продакшні натомість використовуйте перевірену бібліотеку на кшталт DOMPurify, sanitize-html або bleach.

    Коли використовувати цей інструмент, а коли — код

    Використовуйте цей браузерний інструмент, коли потрібне одноразове перетворення шматка HTML на звичайний текст — наприклад, щоб очистити зібрану сторінку або скопійоване тіло листа. У коді застосунку надавайте перевагу спеціалізованим бібліотекам: DOMPurify для санітизації, html-to-text або htmlparser2 для структурованого витягування тексту, а Cheerio або jsdom — коли потрібно обходити DOM. Ці бібліотеки надійніше, ніж regex-прохід, обробляють крайові випадки на кшталт вкладених таблиць, декларацій кодування та умовних коментарів.