DevToys Web Pro iconDevToys Web Proالمدونة
قيّمنا:
جرّب إضافة المتصفح:

إزالة وسوم HTML

10 تمت إزالة الوسوم245 تمت إزالة الأحرف

إدخال HTML

  • مخرجات النص العادي

  • التفاصيل التقنية

    كيف تعمل أداة إزالة وسوم HTML

    ما الذي تفعله الأداة

    تزيل أداة إزالة وسوم HTML جميع ترميزات HTML من النص وتعيد المحتوى المرئي كنص عادي. تتعامل مع وسوم الفتح والإغلاق، والسمات، والوسوم ذاتية الإغلاق، والتعليقات، والبنى المتداخلة. تشمل السلوكيات الاختيارية فك ترميز كيانات HTML الشائعة (& و© و€)، والحفاظ على فواصل الأسطر عند وسوم مستوى الكتلة وعناصر br، وإزالة كتل script وstyle بالكامل حتى لا تتسرب محتوياتها إلى المخرجات.

    حالات استخدام شائعة للمطورين

    استخدم أداة إزالة وسوم HTML لتحويل البريد الإلكتروني بالنص المنسّق أو محتوى أنظمة إدارة المحتوى (CMS) إلى نص عادي لملخصات SMS، أو لتنقية HTML المُستخرج قبل تخزينه في فهرس بحث، أو لاستخراج المحتوى المقروء لمقال من أجل التلخيص، أو لتنظيف بيانات الحافظة بعد النسخ من صفحة ويب معروضة. كما تساعد عند إعداد بيانات اختبار من صفحات HTML إنتاجية حيث يهم المحتوى النصي فقط.

    تنسيقات البيانات أو أنواعها أو متغيراتها

    المدخل هو أي ترميز بنكهة HTML أو XML؛ والمخرج نص UTF-8 عادي. تُفك مراجع الكيانات الرقمية مثل € و€ إلى محارف Unicode المقابلة، كما يتم دعم مجموعة واسعة من الكيانات المسماة (& و< و> و" و' و  و© و® و™ و… و— و– وعلامات الاقتباس الذكية). عند تفعيل الحفاظ على فواصل الأسطر، تتحول وسوم الإغلاق لـ p وdiv وli وh1–h6 وbr وغيرها من عناصر مستوى الكتلة إلى أسطر جديدة، وتُدمج الأسطر الفارغة المتتالية إلى سطر فارغ واحد.

    المزالق الشائعة والحالات الطرفية

    إن إزالة HTML المعتمدة على regex ليست بديلًا عن محلّل HTML حقيقي عند التعامل مع مدخلات خبيثة — ولا ينبغي استخدامها لتنقية HTML غير موثوق قبل إعادة حقنه في مكان آخر. قد ينتج عن الترميز غير السليم مع وسوم غير متطابقة مسافات بيضاء غير متوقعة. الصور المضمّنة base64، والسكربتات التي تحتوي على سلاسل تبدو كوسوم، وأقسام CDATA جميعها لها حالات طرفية. لتنقية الإنتاج على جانب الخادم استخدم بدلًا من ذلك مكتبة مجرّبة مثل DOMPurify أو sanitize-html أو bleach.

    متى تستخدم هذه الأداة بدلًا من الكود

    استخدم أداة المتصفح عندما تحتاج إلى تحويل لمرة واحدة لجزء من HTML إلى نص عادي — مثل تنظيف صفحة مُستخرجة أو جسم بريد إلكتروني منسوخ. في كود التطبيق، فضّل المكتبات المصممة لهذا الغرض: DOMPurify للتنقية، وhtml-to-text أو htmlparser2 لاستخراج نص منظّم، وCheerio أو jsdom عندما تحتاج إلى اجتياز DOM. تتعامل هذه المكتبات مع الحالات الطرفية مثل الجداول المتداخلة، وإعلانات الترميز، والتعليقات الشرطية بشكل أكثر متانة من تمرير regex.