Buang Tag HTML
Input HTML
Output Teks Biasa
Butiran teknikal
Cara Alat Buang Tag HTML Berfungsi
Apa yang Alat Ini Lakukan
Buang Tag HTML mengalih keluar semua penanda HTML daripada teks dan mengembalikan kandungan yang kelihatan sebagai teks biasa. Ia mengendalikan tag pembuka dan penutup, atribut, tag tutup sendiri, komen, dan struktur bersarang. Tingkah laku pilihan termasuk menyahkod entiti HTML biasa (&, ©, €), mengekalkan pemisah baris pada tag peringkat blok dan elemen br, serta membuang blok script dan style sepenuhnya supaya kandungannya tidak bocor ke dalam output.
Kes Penggunaan Pembangun yang Lazim
Gunakan Buang Tag HTML untuk menukar e-mel teks kaya atau kandungan CMS kepada teks biasa untuk ringkasan SMS, menapis HTML yang dikikis sebelum menyimpannya dalam indeks carian, mengekstrak kandungan boleh dibaca sesuatu artikel untuk peringkasan, atau membersihkan data papan klip selepas menyalin daripada halaman web yang dirender. Ia juga membantu apabila menyediakan fixtur ujian daripada halaman HTML produksi di mana hanya kandungan teks yang penting.
Format Data, Jenis, atau Varian
Input ialah sebarang penanda berperisa HTML atau XML; output ialah teks UTF-8 biasa. Rujukan entiti berangka seperti € dan € dinyahkod kepada aksara Unicode masing-masing, dan set luas entiti bernama (&, <, >, ", ', , ©, ®, ™, …, —, –, petikan pintar) disokong. Apabila pengekalan pemisah baris dihidupkan, tag penutup untuk p, div, li, h1–h6, br, dan elemen peringkat blok lain menjadi baris baharu dan baris kosong berturutan diringkaskan kepada satu baris kosong.
Perangkap Lazim dan Kes Tepi
Pembuangan HTML berasaskan regex bukan pengganti untuk penghurai HTML sebenar apabila berurusan dengan input berniat jahat — ia tidak sepatutnya digunakan untuk menapis HTML yang tidak dipercayai sebelum menyuntikkannya semula di tempat lain. Penanda yang rosak dengan tag tidak sepadan boleh menghasilkan ruang putih yang mengejutkan. Imej base64 terbenam, skrip yang mengandungi rentetan yang kelihatan seperti tag, dan seksyen CDATA semuanya mempunyai kes tepi. Untuk sanitasi sisi pelayan dalam produksi, gunakan pustaka yang terbukti seperti DOMPurify, sanitize-html, atau bleach.
Bila Perlu Menggunakan Alat Ini Berbanding Kod
Gunakan alat pelayar ini apabila anda memerlukan penukaran sekali jalan bagi sebahagian HTML kepada teks biasa — contohnya membersihkan halaman yang dikikis atau badan e-mel yang disalin. Dalam kod aplikasi, utamakan pustaka yang dibina khusus: DOMPurify untuk sanitasi, html-to-text atau htmlparser2 untuk pengekstrakan teks berstruktur, dan Cheerio atau jsdom apabila anda perlu menelusuri DOM. Pustaka ini mengendalikan kes tepi seperti jadual bersarang, pengisytiharan pengekodan, dan komen bersyarat dengan lebih kukuh berbanding laluan regex.