הסרת תגיות HTML
קלט HTML
פלט טקסט רגיל
פרטים טכניים
איך כלי הסרת תגיות HTML עובד
מה הכלי עושה
הסרת תגיות HTML מסירה את כל סימון ה-HTML מהטקסט ומחזירה את התוכן הנראה כטקסט רגיל. היא מטפלת בתגיות פתיחה וסגירה, מאפיינים, תגיות סגירה-עצמית, הערות ומבנים מקוננים. התנהגויות אופציונליות כוללות פענוח ישויות HTML נפוצות (&, ©, €), שימור מעברי שורה בתגיות ברמת בלוק ובאלמנטים br, והסרה מלאה של בלוקים של script ו-style כך שהתוכן שלהם לא יזלוג לפלט.
מקרי שימוש נפוצים למפתחים
השתמשו בהסרת תגיות HTML כדי להמיר אימייל עשיר-טקסט או תוכן CMS לטקסט רגיל עבור תקצירי SMS, לנקות HTML שנאסף (scraped) לפני שמירתו באינדקס חיפוש, לחלץ את התוכן הקריא של מאמר לצורך סיכום, או לנקות נתוני לוח-גזירים לאחר העתקה מדף אינטרנט מרונדר. זה גם עוזר בעת הכנת פיקסטורות בדיקה מדפי HTML בסביבת ייצור שבהם רק התוכן הטקסטואלי חשוב.
פורמטי נתונים, טיפוסים או וריאנטים
הקלט הוא כל סימון בסגנון HTML או XML; הפלט הוא טקסט UTF-8 רגיל. הפניות ישות מספריות כמו € ו-€ מפוענחות לתווי ה-Unicode שלהן, ומערכת רחבה של ישויות בשם (&, <, >, ", ', , ©, ®, ™, …, —, –, מרכאות חכמות) נתמכת. כאשר שימור מעברי שורה מופעל, תגיות סגירה עבור p, div, li, h1–h6, br ואלמנטים נוספים ברמת בלוק הופכות לשורות חדשות, ושורות ריקות עוקבות מצטמצמות לשורה ריקה אחת.
מלכודות נפוצות ומקרי קצה
הסרת HTML המבוססת על רג׳קס אינה תחליף למנתח HTML אמיתי כאשר מתמודדים עם קלט זדוני — אין להשתמש בה כדי לנקות HTML לא מהימן לפני הזרקה מחדש למקום אחר. סימון פגום עם תגיות לא תואמות עשוי לייצר רווחים מפתיעים. תמונות base64 מוטמעות, סקריפטים שמכילים מחרוזות שנראות כמו תגיות, ומקטעי CDATA — כולם כוללים מקרי קצה. לניקוי צד-שרת בסביבת ייצור השתמשו במקום זאת בספרייה מוכחת כמו DOMPurify, sanitize-html או bleach.
מתי להשתמש בכלי הזה לעומת קוד
השתמשו בכלי הדפדפן כשאתם צריכים המרה חד-פעמית של מקטע HTML לטקסט רגיל — למשל ניקוי דף שנאסף (scraped) או גוף אימייל שהועתק. בקוד האפליקציה, העדיפו ספריות ייעודיות: DOMPurify לניקוי, html-to-text או htmlparser2 לחילוץ טקסט מובנה, ו-Cheerio או jsdom כשצריך לנווט ב-DOM. ספריות אלו מטפלות במקרי קצה כמו טבלאות מקוננות, הצהרות קידוד והערות מותנות בצורה עמידה יותר מאשר מעבר רג׳קס.