HTML Etiketlerini Kaldır
HTML Girdisi
Düz Metin Çıktısı
Teknik ayrıntılar
HTML Etiketlerini Kaldırma Aracı Nasıl Çalışır
Araç Ne Yapar
Strip HTML Tags, metinden tüm HTML işaretlemesini kaldırır ve görünen içeriği düz metin olarak döndürür. Açılış ve kapanış etiketlerini, öznitelikleri, kendiliğinden kapanan etiketleri, yorumları ve iç içe yapıları işler. İsteğe bağlı davranışlar arasında yaygın HTML varlıklarını (&, ©, €) çözümleme, blok düzeyi etiketlerde ve br öğelerinde satır sonlarını koruma ve script ile style bloklarını tamamen kaldırarak içeriklerinin çıktıya sızmasını engelleme bulunur.
Yaygın Geliştirici Kullanım Senaryoları
Strip HTML Tags’i zengin metin e-postasını veya CMS içeriğini SMS özetleri için düz metne dönüştürmek, kazınmış HTML’yi bir arama dizinine kaydetmeden önce temizlemek, özetleme için bir makalenin okunabilir içeriğini çıkarmak ya da işlenmiş bir web sayfasından kopyaladıktan sonra pano verisini temizlemek için kullanın. Ayrıca yalnızca metin içeriğinin önemli olduğu üretim HTML sayfalarından test fikstürleri hazırlarken de yardımcı olur.
Veri Biçimleri, Türleri veya Varyantlar
Girdi herhangi bir HTML veya XML benzeri işaretlemedir; çıktı düz UTF-8 metindir. € ve € gibi sayısal varlık başvuruları Unicode karakterlerine çözülür ve geniş bir adlandırılmış varlık kümesi (&, <, >, ", ', , ©, ®, ™, …, —, –, akıllı tırnaklar) desteklenir. Satır sonu koruma açıkken p, div, li, h1–h6, br ve diğer blok düzeyi öğelerin kapanış etiketleri yeni satıra dönüşür ve art arda gelen boş satırlar tek bir boş satıra indirgenir.
Yaygın Hatalar ve Sınır Durumları
Regex tabanlı HTML kaldırma, kötü niyetli girdilerle uğraşırken gerçek bir HTML ayrıştırıcısının yerini tutmaz — güvenilmeyen HTML’yi başka bir yere yeniden enjekte etmeden önce temizlemek için kullanılmamalıdır. Eşleşmeyen etiketlere sahip bozuk işaretleme beklenmedik boşluklar üretebilir. Gömülü base64 görseller, etiket gibi görünen dizgeler içeren script’ler ve CDATA bölümlerinin tümü uç durumlara sahiptir. Sunucu tarafında üretim amaçlı temizleme için DOMPurify, sanitize-html veya bleach gibi kendini kanıtlamış bir kütüphane kullanın.
Bu Aracı Ne Zaman Kullanmalı, Ne Zaman Kod Yazmalı
Bir HTML parçasını tek seferde düz metne dönüştürmeniz gerektiğinde — ör. kazınmış bir sayfayı veya kopyalanmış bir e-posta gövdesini temizlerken — bu tarayıcı aracını kullanın. Uygulama kodunda amaca yönelik kütüphaneleri tercih edin: temizleme için DOMPurify, yapılandırılmış metin çıkarımı için html-to-text veya htmlparser2 ve DOM’da gezinmeniz gerektiğinde Cheerio veya jsdom. Bu kütüphaneler, iç içe tablolar, kodlama bildirimleri ve koşullu yorumlar gibi uç durumları bir regex geçişinden daha sağlam şekilde ele alır.