ลบแท็ก HTML
อินพุต HTML
เอาต์พุตข้อความล้วน
รายละเอียดทางเทคนิค
เครื่องมือ Strip HTML Tags ทำงานอย่างไร
เครื่องมือนี้ทำอะไร
Strip HTML Tags จะลบมาร์กอัป HTML ทั้งหมดออกจากข้อความ และคืนค่าเนื้อหาที่มองเห็นได้เป็นข้อความล้วน รองรับแท็กเปิดและปิด แอตทริบิวต์ แท็กปิดตัวเอง คอมเมนต์ และโครงสร้างซ้อนกัน พฤติกรรมเสริมได้แก่ การถอดรหัสเอนทิตี HTML ที่พบบ่อย (&, ©, €) การคงบรรทัดใหม่ไว้ที่แท็กระดับบล็อกและองค์ประกอบ br และการลบบล็อก script และ style ออกทั้งหมดเพื่อไม่ให้เนื้อหาภายในหลุดไปอยู่ในผลลัพธ์
กรณีการใช้งานทั่วไปของนักพัฒนา
ใช้ Strip HTML Tags เพื่อแปลงอีเมลแบบ rich-text หรือเนื้อหา CMS ให้เป็นข้อความล้วนสำหรับสรุปแบบ SMS ทำความสะอาด HTML ที่สแครปมาก่อนจัดเก็บลงดัชนีค้นหา ดึงเนื้อหาที่อ่านได้ของบทความเพื่อทำสรุป หรือทำความสะอาดข้อมูลคลิปบอร์ดหลังคัดลอกจากหน้าเว็บที่เรนเดอร์แล้ว นอกจากนี้ยังช่วยเมื่อเตรียมฟิกซ์เจอร์ทดสอบจากหน้า HTML ในโปรดักชันที่มีเพียงเนื้อหาข้อความเท่านั้นที่สำคัญ
รูปแบบข้อมูล ชนิด หรือรูปแบบย่อย
อินพุตเป็นมาร์กอัปแบบ HTML หรือ XML ใด ๆ; เอาต์พุตเป็นข้อความ UTF-8 ล้วน การอ้างอิงเอนทิตีแบบตัวเลข เช่น € และ € จะถูกถอดรหัสเป็นอักขระ Unicode และรองรับเอนทิตีแบบมีชื่อหลากหลายชุด (&, <, >, ", ', , ©, ®, ™, …, —, –, smart quotes) เมื่อเปิดการคงบรรทัดใหม่ แท็กปิดของ p, div, li, h1–h6, br และองค์ประกอบระดับบล็อกอื่น ๆ จะกลายเป็นขึ้นบรรทัดใหม่ และบรรทัดว่างที่ติดกันจะถูกรวมให้เหลือบรรทัดว่างเดียว
ข้อผิดพลาดที่พบบ่อยและกรณีขอบ
การลบ HTML ด้วย regex ไม่ใช่สิ่งทดแทนพาร์เซอร์ HTML จริงเมื่อจัดการอินพุตที่เป็นอันตราย — ไม่ควรใช้เพื่อทำความสะอาด HTML ที่ไม่น่าเชื่อถือก่อนนำไปฉีดกลับที่อื่น มาร์กอัปที่ผิดรูปพร้อมแท็กไม่เข้าคู่กันอาจทำให้เกิดช่องว่างที่คาดไม่ถึง รูปภาพ base64 ที่ฝังอยู่ สคริปต์ที่มีสตริงซึ่งดูเหมือนแท็ก และส่วน CDATA ล้วนมีเคสขอบ สำหรับการทำความสะอาดฝั่งเซิร์ฟเวอร์ในโปรดักชัน ให้ใช้ไลบรารีที่ผ่านการพิสูจน์แล้ว เช่น DOMPurify, sanitize-html หรือ bleach แทน
เมื่อใดควรใช้เครื่องมือนี้แทนการเขียนโค้ด
ใช้เครื่องมือบนเบราว์เซอร์นี้เมื่อคุณต้องการแปลง HTML ก้อนหนึ่งเป็นข้อความล้วนแบบครั้งเดียว — เช่น ทำความสะอาดหน้าที่สแครปมา หรือเนื้อหาอีเมลที่คัดลอกมา ในโค้ดแอปพลิเคชัน ให้เลือกไลบรารีที่สร้างมาเฉพาะทาง: DOMPurify สำหรับการทำความสะอาด, html-to-text หรือ htmlparser2 สำหรับการดึงข้อความแบบมีโครงสร้าง และ Cheerio หรือ jsdom เมื่อคุณต้องการไล่เดิน DOM ไลบรารีเหล่านี้จัดการเคสขอบ เช่น ตารางซ้อนกัน คำประกาศเอนโค้ด และคอมเมนต์แบบมีเงื่อนไข ได้ทนทานกว่าการผ่าน regex