HTML ట్యాగ్లను తొలగించండి
HTML ఇన్పుట్
సాధారణ పాఠ్య అవుట్పుట్
సాంకేతిక వివరాలు
Strip HTML Tags టూల్ ఎలా పనిచేస్తుంది
ఈ టూల్ ఏమి చేస్తుంది
Strip HTML Tags టెక్స్ట్ నుండి అన్ని HTML మార్కప్ను తొలగించి కనిపించే కంటెంట్ను ప్లెయిన్ టెక్స్ట్గా తిరిగి ఇస్తుంది. ఇది ఓపెనింగ్ మరియు క్లోజింగ్ ట్యాగ్స్, అట్రిబ్యూట్స్, సెల్ఫ్-క్లోజింగ్ ట్యాగ్స్, కామెంట్స్, మరియు నెస్టెడ్ స్ట్రక్చర్లను హ్యాండిల్ చేస్తుంది. ఐచ్చిక ప్రవర్తనల్లో సాధారణ HTML ఎంటిటీలను డీకోడ్ చేయడం (&, ©, €), బ్లాక్-లెవల్ ట్యాగ్స్ మరియు br ఎలిమెంట్ల వద్ద లైన్ బ్రేక్స్ను నిలుపుకోవడం, మరియు script మరియు style బ్లాక్స్ను పూర్తిగా తొలగించడం ఉన్నాయి, తద్వారా వాటి కంటెంట్లు అవుట్పుట్లోకి లీక్ కాకుండా ఉంటుంది.
డెవలపర్ల సాధారణ వినియోగ సందర్భాలు
రిచ్-టెక్స్ట్ ఇమెయిల్ లేదా CMS కంటెంట్ను SMS డైజెస్టుల కోసం ప్లెయిన్ టెక్స్ట్గా మార్చడానికి, సెర్చ్ ఇండెక్స్లో నిల్వ చేయడానికి ముందు స్క్రేప్ చేసిన HTMLను శుద్ధి చేయడానికి, సమ్మరైజేషన్ కోసం ఒక ఆర్టికల్లోని చదవదగిన కంటెంట్ను ఎక్స్ట్రాక్ట్ చేయడానికి, లేదా రెండర్ చేసిన వెబ్ పేజీ నుండి కాపీ చేసిన తర్వాత క్లిప్బోర్డ్ డేటాను శుభ్రం చేయడానికి Strip HTML Tagsను ఉపయోగించండి. ప్రొడక్షన్ HTML పేజీల నుండి టెస్ట్ ఫిక్చర్లను సిద్ధం చేస్తున్నప్పుడు కూడా ఇది సహాయపడుతుంది, అక్కడ టెక్స్టువల్ కంటెంట్ మాత్రమే ముఖ్యం.
డేటా ఫార్మాట్లు, రకాలు, లేదా వేరియంట్లు
ఇన్పుట్ ఏదైనా HTML లేదా XML-ఫ్లేవర్డ్ మార్కప్; అవుట్పుట్ ప్లెయిన్ UTF-8 టెక్స్ట్. € మరియు € వంటి న్యూమరిక్ ఎంటిటీ రిఫరెన్సులు వాటి యూనికోడ్ అక్షరాలకు డీకోడ్ అవుతాయి, మరియు పేరుతో ఉన్న విస్తృత ఎంటిటీల సెట్ (&, <, >, ", ', , ©, ®, ™, …, —, –, స్మార్ట్ కోట్స్) సపోర్ట్ చేయబడుతుంది. లైన్-బ్రేక్ ప్రిజర్వేషన్ ఆన్లో ఉన్నప్పుడు, p, div, li, h1–h6, br, మరియు ఇతర బ్లాక్-లెవల్ ఎలిమెంట్ల క్లోజింగ్ ట్యాగ్స్ న్యూలైన్లుగా మారతాయి మరియు వరుసగా వచ్చే ఖాళీ లైన్లు ఒకే ఖాళీ లైన్గా కుదించబడతాయి.
సాధారణ తప్పిదాలు మరియు ఎడ్జ్ కేసులు
దుష్ట ఇన్పుట్తో వ్యవహరిస్తున్నప్పుడు regex-ఆధారిత HTML స్ట్రిప్పింగ్ నిజమైన HTML పార్సర్కు ప్రత్యామ్నాయం కాదు — నమ్మలేని HTMLను మరెక్కడైనా మళ్లీ ఇంజెక్ట్ చేయడానికి ముందు శానిటైజ్ చేయడానికి దీన్ని ఉపయోగించకూడదు. సరిపోలని ట్యాగ్స్తో ఉన్న మాల్ఫార్మ్డ్ మార్కప్ అనూహ్యమైన వైట్స్పేస్ను ఉత్పత్తి చేయవచ్చు. ఎంబెడెడ్ base64 ఇమేజెస్, ట్యాగ్స్లా కనిపించే స్ట్రింగ్స్ ఉన్న స్క్రిప్ట్స్, మరియు CDATA సెక్షన్లు అన్నీ ఎడ్జ్ కేసులు కలిగి ఉంటాయి. సర్వర్-సైడ్ ప్రొడక్షన్ శానిటైజేషన్ కోసం DOMPurify, sanitize-html, లేదా bleach వంటి బాటిల్-టెస్టెడ్ లైబ్రరీని ఉపయోగించండి.
కోడ్తో పోల్చితే ఈ టూల్ను ఎప్పుడు ఉపయోగించాలి
HTML యొక్క ఒక భాగాన్ని ప్లెయిన్ టెక్స్ట్గా ఒక్కసారిగా కన్వర్ట్ చేయాల్సినప్పుడు ఈ బ్రౌజర్ టూల్ను ఉపయోగించండి — ఉదా. స్క్రేప్ చేసిన పేజీని లేదా కాపీ చేసిన ఇమెయిల్ బాడీని శుభ్రం చేయడం. అప్లికేషన్ కోడ్లో, ఉద్దేశ్యానికి తగిన లైబ్రరీలను ప్రాధాన్యం ఇవ్వండి: శానిటైజేషన్ కోసం DOMPurify, స్ట్రక్చర్డ్ టెక్స్ట్ ఎక్స్ట్రాక్షన్ కోసం html-to-text లేదా htmlparser2, మరియు DOMను ట్రావర్స్ చేయాల్సినప్పుడు Cheerio లేదా jsdom. ఈ లైబ్రరీలు నెస్టెడ్ టేబుల్స్, ఎన్కోడింగ్ డిక్లరేషన్స్, మరియు కండిషనల్ కామెంట్స్ వంటి ఎడ్జ్ కేసులను regex పాస్ కంటే మరింత రాబస్ట్గా హ్యాండిల్ చేస్తాయి.