Loại bỏ thẻ HTML
Đầu vào HTML
Đầu ra văn bản thuần
Chi tiết kỹ thuật
Công cụ Loại bỏ Thẻ HTML hoạt động như thế nào
Công cụ làm gì
Strip HTML Tags loại bỏ toàn bộ markup HTML khỏi văn bản và trả về nội dung hiển thị dưới dạng văn bản thuần. Công cụ xử lý thẻ mở và thẻ đóng, thuộc tính, thẻ tự đóng, comment và cấu trúc lồng nhau. Các hành vi tùy chọn gồm giải mã các HTML entity phổ biến (&, ©, €), giữ xuống dòng tại các thẻ cấp khối và phần tử br, và loại bỏ hoàn toàn các khối script và style để nội dung của chúng không bị rò vào đầu ra.
Các trường hợp sử dụng phổ biến cho lập trình viên
Dùng Strip HTML Tags để chuyển email rich-text hoặc nội dung CMS sang văn bản thuần cho bản tin SMS, làm sạch HTML thu thập được trước khi lưu vào chỉ mục tìm kiếm, trích xuất nội dung dễ đọc của bài viết để tóm tắt, hoặc dọn dữ liệu clipboard sau khi sao chép từ một trang web đã render. Công cụ cũng hữu ích khi chuẩn bị test fixture từ các trang HTML production, nơi chỉ nội dung văn bản là quan trọng.
Định dạng dữ liệu, kiểu hoặc biến thể
Đầu vào là bất kỳ markup kiểu HTML hoặc XML; đầu ra là văn bản UTF-8 thuần. Tham chiếu entity dạng số như € và € được giải mã thành ký tự Unicode tương ứng, và hỗ trợ một tập rộng các entity có tên (&, <, >, ", ', , ©, ®, ™, …, —, –, dấu ngoặc kép thông minh). Khi bật giữ xuống dòng, các thẻ đóng của p, div, li, h1–h6, br và các phần tử cấp khối khác sẽ trở thành ký tự xuống dòng, và các dòng trống liên tiếp sẽ được gộp lại thành một dòng trống.
Các lỗi thường gặp và trường hợp biên
Việc loại bỏ HTML dựa trên regex không thể thay thế một trình phân tích HTML thực thụ khi xử lý đầu vào độc hại — không nên dùng để làm sạch HTML không đáng tin trước khi chèn lại vào nơi khác. Markup lỗi với thẻ không khớp có thể tạo ra khoảng trắng khó lường. Ảnh base64 nhúng, script chứa chuỗi trông giống thẻ, và các đoạn CDATA đều có các trường hợp biên. Để sanitize phía server trong production, hãy dùng thư viện đã được kiểm chứng như DOMPurify, sanitize-html hoặc bleach.
Khi nào nên dùng công cụ này thay vì viết mã
Dùng công cụ trên trình duyệt khi bạn cần chuyển đổi một lần một đoạn HTML sang văn bản thuần — ví dụ làm sạch một trang thu thập được hoặc phần thân email đã sao chép. Trong mã ứng dụng, ưu tiên các thư viện chuyên dụng: DOMPurify để sanitize, html-to-text hoặc htmlparser2 để trích xuất văn bản có cấu trúc, và Cheerio hoặc jsdom khi bạn cần duyệt DOM. Các thư viện này xử lý các trường hợp biên như bảng lồng nhau, khai báo encoding và conditional comments vững chắc hơn so với một lượt regex.