HTML குறிச்சொற்களை நீக்கு
HTML உள்ளீடு
எளிய உரை வெளியீடு
தொழில்நுட்ப விவரங்கள்
Strip HTML Tags கருவி எப்படி செயல்படுகிறது
இந்த கருவி என்ன செய்கிறது
Strip HTML Tags உரையிலிருந்து அனைத்து HTML மார்க்அப்பையும் அகற்றி, காணப்படும் உள்ளடக்கத்தை சாதாரண உரையாக (plain text) திருப்பி வழங்குகிறது. இது opening மற்றும் closing tag-கள், attributes, self-closing tag-கள், comments, மற்றும் nested structures ஆகியவற்றை கையாளுகிறது. விருப்பமான நடத்தைகளில் பொதுவான HTML entities-ஐ (&, ©, €) decode செய்வது, block-level tag-களிலும் br elements-லிலும் line break-களை பாதுகாப்பது, மேலும் script மற்றும் style block-களை முழுமையாக அகற்றுவது (அவற்றின் உள்ளடக்கம் வெளியீட்டில் கசிவதில்லை) ஆகியவை அடங்கும்.
டெவலப்பர்களுக்கான பொதுவான பயன்பாட்டு நிலைகள்
SMS சுருக்கங்களுக்கு rich-text email அல்லது CMS உள்ளடக்கத்தை plain text-ஆக மாற்ற, தேடல் index-இல் சேமிப்பதற்கு முன் scraped HTML-ஐ சுத்தப்படுத்த, சுருக்கம் செய்ய ஒரு கட்டுரையின் வாசிக்கக்கூடிய உள்ளடக்கத்தை எடுத்தெடுக்க, அல்லது render செய்யப்பட்ட web page-இலிருந்து நகலெடுத்த பிறகு clipboard தரவை சுத்தம் செய்ய Strip HTML Tags-ஐ பயன்படுத்துங்கள். உரை உள்ளடக்கம் மட்டுமே முக்கியமான உற்பத்தி HTML பக்கங்களில் இருந்து test fixtures தயாரிக்கும் போதும் இது உதவுகிறது.
தரவு வடிவங்கள், வகைகள், அல்லது மாறுபாடுகள்
உள்ளீடு எந்த HTML அல்லது XML-பாணி மார்க்அப்பாகவும் இருக்கலாம்; வெளியீடு plain UTF-8 உரை. € மற்றும் € போன்ற numeric entity references அவற்றின் Unicode எழுத்துகளாக decode செய்யப்படுகின்றன, மேலும் named entities-களின் பரந்த தொகுப்பு (&, <, >, ", ', , ©, ®, ™, …, —, –, smart quotes) ஆதரிக்கப்படுகிறது. line-break preservation இயக்கப்பட்டிருந்தால், p, div, li, h1–h6, br, மற்றும் பிற block-level elements-களின் closing tag-கள் newline-களாக மாறும்; தொடர்ச்சியான காலி வரிகள் ஒரு காலி வரியாக சுருக்கப்படும்.
பொதுவான தவறுகள் மற்றும் விளிம்பு நிலைகள்
தீங்கிழைக்கும் உள்ளீட்டுடன் (malicious input) வேலை செய்யும்போது regex-அடிப்படையிலான HTML stripping ஒரு உண்மையான HTML parser-க்கு மாற்றாகாது — நம்பமுடியாத HTML-ஐ வேறு இடத்தில் மீண்டும் செருகுவதற்கு முன் (reinjecting) அதை sanitize செய்ய இதைப் பயன்படுத்தக்கூடாது. பொருந்தாத tag-களுடன் கூடிய தவறான மார்க்அப் எதிர்பாராத whitespace-ஐ உருவாக்கலாம். Embedded base64 படங்கள், tag-கள் போலத் தோன்றும் string-களை கொண்ட scripts, மற்றும் CDATA பகுதிகள் அனைத்திலும் edge case-கள் உள்ளன. server-side உற்பத்தி sanitization-க்கு DOMPurify, sanitize-html, அல்லது bleach போன்ற நன்கு சோதிக்கப்பட்ட நூலகத்தைப் பயன்படுத்துங்கள்.
கோடுக்கு பதிலாக இந்த கருவியை எப்போது பயன்படுத்துவது
HTML ஒரு பகுதியை plain text-ஆக ஒரே முறை மாற்ற வேண்டியபோது — உதாரணமாக scraped page-ஐ அல்லது நகலெடுத்த email body-ஐ சுத்தம் செய்வது — இந்த உலாவி கருவியைப் பயன்படுத்துங்கள். பயன்பாட்டு கோடில், குறிப்பிட்ட நோக்கத்திற்கான நூலகங்களை முன்னுரிமை கொடுங்கள்: sanitization-க்கு DOMPurify, கட்டமைக்கப்பட்ட உரை எடுத்தெடுப்பிற்கு html-to-text அல்லது htmlparser2, மேலும் DOM-ஐ நடந்து செல்ல வேண்டுமெனில் Cheerio அல்லது jsdom. இந்நூலகங்கள் nested tables, encoding declarations, மற்றும் conditional comments போன்ற edge case-களை regex pass-ஐ விட உறுதியான முறையில் கையாளும்.