Αφαίρεση ετικετών HTML
Είσοδος HTML
Έξοδος απλού κειμένου
Τεχνικές λεπτομέρειες
Πώς λειτουργεί το εργαλείο αφαίρεσης ετικετών HTML
Τι κάνει το εργαλείο
Το Strip HTML Tags αφαιρεί όλη τη σήμανση HTML από το κείμενο και επιστρέφει το ορατό περιεχόμενο ως απλό κείμενο. Διαχειρίζεται ετικέτες ανοίγματος και κλεισίματος, attributes, αυτοκλειόμενες ετικέτες, σχόλια και εμφωλευμένες δομές. Προαιρετικές συμπεριφορές περιλαμβάνουν την αποκωδικοποίηση κοινών HTML entities (&, ©, €), τη διατήρηση αλλαγών γραμμής σε block-level tags και σε στοιχεία br, και την πλήρη αφαίρεση των blocks script και style ώστε το περιεχόμενό τους να μην «διαρρεύσει» στο αποτέλεσμα.
Συνηθισμένες περιπτώσεις χρήσης για προγραμματιστές
Χρησιμοποιήστε το Strip HTML Tags για να μετατρέψετε email rich-text ή περιεχόμενο CMS σε απλό κείμενο για SMS digests, να καθαρίσετε scraped HTML πριν το αποθηκεύσετε σε ένα search index, να εξαγάγετε το αναγνώσιμο περιεχόμενο ενός άρθρου για περίληψη ή να καθαρίσετε δεδομένα του προχείρου μετά από αντιγραφή από μια αποδοσμένη (rendered) ιστοσελίδα. Βοηθά επίσης στην προετοιμασία test fixtures από παραγωγικές σελίδες HTML, όπου έχει σημασία μόνο το κειμενικό περιεχόμενο.
Μορφές δεδομένων, τύποι ή παραλλαγές
Η είσοδος είναι οποιαδήποτε σήμανση τύπου HTML ή XML· η έξοδος είναι απλό κείμενο UTF-8. Αριθμητικές αναφορές entity όπως € και € αποκωδικοποιούνται στους αντίστοιχους χαρακτήρες Unicode, και υποστηρίζεται ένα ευρύ σύνολο από named entities (&, <, >, ", ', , ©, ®, ™, …, —, –, smart quotes). Όταν είναι ενεργή η διατήρηση αλλαγών γραμμής, οι ετικέτες κλεισίματος για p, div, li, h1–h6, br και άλλα block-level στοιχεία μετατρέπονται σε νέες γραμμές και οι διαδοχικές κενές γραμμές συμπτύσσονται σε μία κενή γραμμή.
Συνηθισμένα λάθη και οριακές περιπτώσεις
Η αφαίρεση HTML με βάση regex δεν υποκαθιστά έναν πραγματικό HTML parser όταν αντιμετωπίζετε κακόβουλη είσοδο — δεν πρέπει να χρησιμοποιείται για να «καθαρίσει» μη έμπιστο HTML πριν το επανεισάγετε αλλού. Κακοσχηματισμένη σήμανση με ασύμφωνες ετικέτες μπορεί να παράγει απρόσμενο κενό διάστημα. Ενσωματωμένες εικόνες base64, scripts που περιέχουν συμβολοσειρές που μοιάζουν με ετικέτες και ενότητες CDATA έχουν όλες οριακές περιπτώσεις. Για παραγωγικό sanitization στην πλευρά του server, χρησιμοποιήστε μια δοκιμασμένη βιβλιοθήκη όπως DOMPurify, sanitize-html ή bleach.
Πότε να χρησιμοποιήσετε αυτό το εργαλείο έναντι κώδικα
Χρησιμοποιήστε αυτό το εργαλείο του browser όταν χρειάζεστε μια εφάπαξ μετατροπή ενός τμήματος HTML σε απλό κείμενο — π.χ. για να καθαρίσετε μια scraped σελίδα ή ένα αντιγραμμένο σώμα email. Στον κώδικα της εφαρμογής, προτιμήστε βιβλιοθήκες ειδικού σκοπού: DOMPurify για sanitization, html-to-text ή htmlparser2 για δομημένη εξαγωγή κειμένου, και Cheerio ή jsdom όταν χρειάζεται να διατρέξετε το DOM. Αυτές οι βιβλιοθήκες χειρίζονται οριακές περιπτώσεις όπως εμφωλευμένους πίνακες, δηλώσεις κωδικοποίησης και conditional comments πιο αξιόπιστα από ένα πέρασμα regex.