HTML ടാഗുകൾ നീക്കം ചെയ്യുക
HTML ഇൻപുട്ട്
പ്ലെയിൻ ടെക്സ്റ്റ് ഔട്ട്പുട്ട്
സാങ്കേതിക വിശദാംശങ്ങൾ
Strip HTML Tags ടൂൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു
ഉപകരണം ചെയ്യുന്നത് എന്താണ്
Strip HTML Tags ടെക്സ്റ്റിൽ നിന്നുള്ള എല്ലാ HTML മാർക്കപ്പും നീക്കി ദൃശ്യമായ ഉള്ളടക്കം പ്ലെയിൻ ടെക്സ്റ്റായി തിരികെ നൽകുന്നു. ഇത് ഓപ്പണിംഗ്, ക്ലോസിംഗ് ടാഗുകൾ, ആട്രിബ്യൂട്ടുകൾ, സെൽഫ്-ക്ലോസിംഗ് ടാഗുകൾ, കമന്റുകൾ, നെസ്റ്റഡ് ഘടനകൾ എന്നിവ കൈകാര്യം ചെയ്യുന്നു. ഓപ്ഷണൽ പെരുമാറ്റങ്ങളിൽ സാധാരണ HTML എന്റിറ്റികൾ (&, ©, €) ഡീകോഡ് ചെയ്യുക, ബ്ലോക്ക്-ലെവൽ ടാഗുകളിലും br എലമെന്റുകളിലും ലൈൻ ബ്രേക്കുകൾ നിലനിർത്തുക, കൂടാതെ script, style ബ്ലോക്കുകൾ പൂർണ്ണമായി നീക്കം ചെയ്ത് അവയുടെ ഉള്ളടക്കം ഔട്ട്പുട്ടിലേക്ക് ചോർന്നുപോകാതിരിക്കുക എന്നിവ ഉൾപ്പെടുന്നു.
ഡെവലപ്പർമാർക്കുള്ള സാധാരണ ഉപയോഗ സാഹചര്യങ്ങൾ
റിച്ച്-ടെക്സ്റ്റ് ഇമെയിൽ അല്ലെങ്കിൽ CMS ഉള്ളടക്കം SMS ഡൈജസ്റ്റുകൾക്കായി പ്ലെയിൻ ടെക്സ്റ്റാക്കി മാറ്റാൻ, സ്ക്രേപ്പ് ചെയ്ത HTML ഒരു സെർച്ച് ഇൻഡക്സിൽ സംഭരിക്കുന്നതിന് മുമ്പ് ശുദ്ധീകരിക്കാൻ, സംഗ്രഹണത്തിനായി ഒരു ലേഖനത്തിലെ വായിക്കാവുന്ന ഉള്ളടക്കം എടുക്കാൻ, അല്ലെങ്കിൽ റെൻഡർ ചെയ്ത വെബ് പേജിൽ നിന്ന് കോപ്പി ചെയ്തതിന് ശേഷം ക്ലിപ്പ്ബോർഡ് ഡാറ്റ വൃത്തിയാക്കാൻ Strip HTML Tags ഉപയോഗിക്കുക. ടെക്സ്റ്റ് ഉള്ളടക്കം മാത്രമേ പ്രാധാന്യമുള്ളൂ എന്ന പ്രൊഡക്ഷൻ HTML പേജുകളിൽ നിന്ന് ടെസ്റ്റ് ഫിക്ചറുകൾ തയ്യാറാക്കുമ്പോഴും ഇത് സഹായിക്കുന്നു.
ഡാറ്റ ഫോർമാറ്റുകൾ, തരങ്ങൾ, അല്ലെങ്കിൽ വകഭേദങ്ങൾ
ഇൻപുട്ട് ഏതെങ്കിലും HTML അല്ലെങ്കിൽ XML-ഫ്ലേവർഡ് മാർക്കപ്പായിരിക്കും; ഔട്ട്പുട്ട് പ്ലെയിൻ UTF-8 ടെക്സ്റ്റാണ്. €യും €യും പോലുള്ള നമ്പറിക് എന്റിറ്റി റഫറൻസുകൾ അവരുടെ Unicode അക്ഷരങ്ങളായി ഡീകോഡ് ചെയ്യപ്പെടുന്നു, കൂടാതെ പേരിട്ട എന്റിറ്റികളുടെ (&, <, >, ", ', , ©, ®, ™, …, —, –, സ്മാർട്ട് ക്വോട്ടുകൾ) വിപുലമായ ഒരു സെറ്റ് പിന്തുണയ്ക്കപ്പെടുന്നു. ലൈൻ-ബ്രേക്ക് സംരക്ഷണം ഓണായിരിക്കുമ്പോൾ p, div, li, h1–h6, br, മറ്റ് ബ്ലോക്ക്-ലെവൽ എലമെന്റുകൾ എന്നിവയുടെ ക്ലോസിംഗ് ടാഗുകൾ ന്യൂലൈൻസായി മാറുകയും തുടർച്ചയായ ശൂന്യ വരികൾ ഒരു ശൂന്യ വരിയായി ചുരുങ്ങുകയും ചെയ്യുന്നു.
സാധാരണ പിഴവുകളും എഡ്ജ് കേസുകളും
ദുഷ്ട ഇൻപുട്ട് കൈകാര്യം ചെയ്യുമ്പോൾ regex-അടിസ്ഥാനത്തിലുള്ള HTML stripping ഒരു യഥാർത്ഥ HTML പാർസറിന് പകരമല്ല — വിശ്വസിക്കാനാകാത്ത HTML മറ്റിടത്ത് വീണ്ടും ഇൻജെക്റ്റ് ചെയ്യുന്നതിന് മുമ്പ് സാനിറ്റൈസ് ചെയ്യാൻ ഇത് ഉപയോഗിക്കരുത്. പൊരുത്തമില്ലാത്ത ടാഗുകളുള്ള മാൽഫോംഡ് മാർക്കപ്പ് അപ്രതീക്ഷിതമായ വൈറ്റ്സ്പേസ് ഉണ്ടാക്കാം. എംബെഡഡ് base64 ചിത്രങ്ങൾ, ടാഗുകൾ പോലെ തോന്നുന്ന സ്ട്രിംഗുകൾ ഉൾക്കൊള്ളുന്ന സ്ക്രിപ്റ്റുകൾ, CDATA സെക്ഷനുകൾ എന്നിവയ്ക്കെല്ലാം എഡ്ജ് കേസുകൾ ഉണ്ട്. സെർവർ-സൈഡ് പ്രൊഡക്ഷൻ സാനിറ്റൈസേഷനായി DOMPurify, sanitize-html, അല്ലെങ്കിൽ bleach പോലുള്ള പരീക്ഷിക്കപ്പെട്ട ലൈബ്രറി ഉപയോഗിക്കുക.
കോഡിനേക്കാൾ ഈ ഉപകരണം എപ്പോൾ ഉപയോഗിക്കണം
HTML-ന്റെ ഒരു ഭാഗം പ്ലെയിൻ ടെക്സ്റ്റാക്കി ഒറ്റത്തവണ മാറ്റേണ്ടപ്പോൾ — ഉദാ. സ്ക്രേപ്പ് ചെയ്ത പേജ് അല്ലെങ്കിൽ കോപ്പി ചെയ്ത ഇമെയിൽ ബോഡി വൃത്തിയാക്കൽ — ഈ ബ്രൗസർ ടൂൾ ഉപയോഗിക്കുക. ആപ്ലിക്കേഷൻ കോഡിൽ, ലക്ഷ്യത്തിനായി നിർമ്മിച്ച ലൈബ്രറികൾ മുൻഗണിക്കുക: സാനിറ്റൈസേഷനായി DOMPurify, ഘടനാപരമായ ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷനായി html-to-text അല്ലെങ്കിൽ htmlparser2, കൂടാതെ DOM-ൽ നടക്കേണ്ടപ്പോൾ Cheerio അല്ലെങ്കിൽ jsdom. നെസ്റ്റഡ് ടേബിളുകൾ, എൻകോഡിംഗ് ഡിക്ലറേഷനുകൾ, കണ്ടീഷണൽ കമന്റുകൾ തുടങ്ങിയ എഡ്ജ് കേസുകൾ regex പാസ്-നെക്കാൾ കൂടുതൽ കരുത്തോടെ ഈ ലൈബ്രറികൾ കൈകാര്യം ചെയ്യും.