Видалення HTML-тегів
Вхідний HTML
Вивід звичайного тексту
Технічні деталі
Як працює інструмент видалення HTML-тегів
Що робить інструмент
Strip HTML Tags видаляє всю HTML-розмітку з тексту та повертає видимий вміст як звичайний текст. Він обробляє відкривальні й закривальні теги, атрибути, самозакривні теги, коментарі та вкладені структури. Додаткові опції включають декодування поширених HTML-сутностей (&, ©, €), збереження переносів рядків на блочних тегах і елементах br, а також повне видалення блоків script і style, щоб їхній вміст не потрапляв у результат.
Поширені сценарії використання для розробників
Використовуйте Strip HTML Tags, щоб перетворити rich-text листи або контент CMS на звичайний текст для SMS-дайджестів, очистити зібраний HTML перед збереженням у пошуковому індексі, витягти читабельний вміст статті для підсумовування або прибрати «сміття» з буфера обміну після копіювання з відрендереної вебсторінки. Це також корисно під час підготовки тестових фікстур із продакшн HTML-сторінок, де важливий лише текстовий вміст.
Формати даних, типи або варіанти
Вхідні дані — будь-яка HTML- або XML-подібна розмітка; вихід — звичайний UTF-8 текст. Числові посилання на сутності на кшталт € і € декодуються у відповідні символи Unicode, а також підтримується широкий набір іменованих сутностей (&, <, >, ", ', , ©, ®, ™, …, —, –, «розумні» лапки). Коли увімкнено збереження переносів рядків, закривальні теги для p, div, li, h1–h6, br та інших блочних елементів перетворюються на нові рядки, а послідовні порожні рядки згортаються до одного порожнього рядка.
Поширені помилки та крайові випадки
Видалення HTML за допомогою regex не є заміною справжнього HTML-парсера під час роботи зі шкідливим введенням — його не слід використовувати для санітизації недовіреного HTML перед повторним вставлянням кудись іще. Некоректна розмітка з невідповідними тегами може давати несподівані пробіли. Вбудовані base64-зображення, скрипти з рядками, схожими на теги, і секції CDATA мають свої крайові випадки. Для серверної санітизації в продакшні натомість використовуйте перевірену бібліотеку на кшталт DOMPurify, sanitize-html або bleach.
Коли використовувати цей інструмент, а коли — код
Використовуйте цей браузерний інструмент, коли потрібне одноразове перетворення шматка HTML на звичайний текст — наприклад, щоб очистити зібрану сторінку або скопійоване тіло листа. У коді застосунку надавайте перевагу спеціалізованим бібліотекам: DOMPurify для санітизації, html-to-text або htmlparser2 для структурованого витягування тексту, а Cheerio або jsdom — коли потрібно обходити DOM. Ці бібліотеки надійніше, ніж regex-прохід, обробляють крайові випадки на кшталт вкладених таблиць, декларацій кодування та умовних коментарів.