DevToys Web Pro iconDevToys Web Proબ્લોગ
અમને રેટ કરો:
બ્રાઉઝર એક્સ્ટેન્શન અજમાવો:

HTML ટૅગ્સ દૂર કરો

10 ટૅગ્સ દૂર કર્યા245 અક્ષરો દૂર કર્યા

HTML ઇનપુટ

  • સાદો લખાણ આઉટપુટ

  • તકનિકી વિગતો

    Strip HTML Tags ટૂલ કેવી રીતે કામ કરે છે

    આ ટૂલ શું કરે છે

    Strip HTML Tags ટેક્સ્ટમાંથી તમામ HTML માર્કઅપ દૂર કરે છે અને દેખાતી સામગ્રીને સાદા ટેક્સ્ટ તરીકે પરત આપે છે. તે ઓપનિંગ અને ક્લોઝિંગ ટૅગ્સ, એટ્રિબ્યુટ્સ, સેલ્ફ-ક્લોઝિંગ ટૅગ્સ, કોમેન્ટ્સ અને નેસ્ટેડ સ્ટ્રક્ચર્સ હેન્ડલ કરે છે. વૈકલ્પિક વર્તણૂકોમાં સામાન્ય HTML entities (&, ©, €) ડિકોડ કરવી, બ્લોક-લેવલ ટૅગ્સ અને br એલિમેન્ટ્સ પર લાઇન બ્રેક્સ જાળવવા, અને script તથા style બ્લોક્સને સંપૂર્ણપણે દૂર કરવું શામેલ છે જેથી તેમનો કન્ટેન્ટ આઉટપુટમાં લીક ન થાય.

    ડેવલપર્સ માટેના સામાન્ય ઉપયોગ કેસિસ

    Strip HTML Tags નો ઉપયોગ રિચ-ટેક્સ્ટ ઇમેઇલ અથવા CMS કન્ટેન્ટને SMS ડાયજેસ્ટ માટે સાદા ટેક્સ્ટમાં રૂપાંતર કરવા, સ્ક્રેપ કરેલા HTML ને સર્ચ ઇન્ડેક્સમાં સંગ્રહ કરતાં પહેલાં સેનિટાઇઝ કરવા, સારાંશ માટે લેખનું વાંચી શકાય એવું કન્ટેન્ટ કાઢવા, અથવા રેન્ડર થયેલા વેબ પેજમાંથી કૉપી કર્યા પછી ક્લિપબોર્ડ ડેટા સાફ કરવા માટે કરો. પ્રોડક્શન HTML પેજિસમાંથી ટેસ્ટ ફિક્સચર્સ તૈયાર કરતી વખતે પણ તે મદદ કરે છે જ્યાં માત્ર ટેક્સ્ટ્યુઅલ કન્ટેન્ટ જ મહત્વનું હોય.

    ડેટા ફોર્મેટ્સ, પ્રકારો, અથવા વેરિઅન્ટ્સ

    ઇનપુટ કોઈપણ HTML અથવા XML-ફ્લેવર્ડ માર્કઅપ હોઈ શકે છે; આઉટપુટ સાદું UTF-8 ટેક્સ્ટ છે. € અને € જેવી ન્યુમેરિક એન્ટિટી રેફરન્સિસ તેમના Unicode અક્ષરોમાં ડિકોડ થાય છે, અને નામવાળી એન્ટિટીઝનો વિશાળ સમૂહ (&, <, >, ", ',  , ©, ®, ™, …, —, –, સ્માર્ટ ક્વોટ્સ) સપોર્ટ થાય છે. જ્યારે લાઇન-બ્રેક પ્રિઝર્વેશન ચાલુ હોય, ત્યારે p, div, li, h1–h6, br અને અન્ય બ્લોક-લેવલ એલિમેન્ટ્સના ક્લોઝિંગ ટૅગ્સ નવી લાઇન્સ બની જાય છે અને સતત ખાલી લાઇન્સ એક જ ખાલી લાઇનમાં સકુચાય જાય છે.

    સામાન્ય ખામીઓ અને એજ કેસિસ

    દુર્ભાવનાપૂર્ણ ઇનપુટ સાથે કામ કરતી વખતે regex-આધારિત HTML સ્ટ્રિપિંગ સાચા HTML પાર્સરનો વિકલ્પ નથી — તેને અવિશ્વસનીય HTML ને સેનિટાઇઝ કરીને ક્યાંક બીજે ફરી ઇન્જેક્ટ કરવા માટે વાપરવું નહીં. મિસમૅચ્ડ ટૅગ્સવાળું મેલફોર્મ્ડ માર્કઅપ અણધાર્યું વ્હાઇટસ્પેસ આપી શકે છે. એમ્બેડેડ base64 ઇમેજિસ, ટૅગ્સ જેવા લાગતા સ્ટ્રિંગ્સ ધરાવતા સ્ક્રિપ્ટ્સ, અને CDATA સેક્શન્સમાં બધા જ એજ કેસિસ હોય છે. સર્વર-સાઇડ પ્રોડક્શન સેનિટાઇઝેશન માટે DOMPurify, sanitize-html, અથવા bleach જેવી બેટલ-ટેસ્ટેડ લાઇબ્રેરી વાપરો.

    કોડની સામે આ ટૂલ ક્યારે વાપરવું

    જ્યારે તમને HTML ના કોઈ ભાગને સાદા ટેક્સ્ટમાં એક જ વખત રૂપાંતર કરવાની જરૂર હોય — જેમ કે સ્ક્રેપ કરેલા પેજને સાફ કરવો અથવા કૉપી કરેલા ઇમેઇલ બોડી ને ક્લીન કરવું — ત્યારે આ બ્રાઉઝર ટૂલ વાપરો. એપ્લિકેશન કોડમાં, હેતુ-નિર્મિત લાઇબ્રેરીઝને પ્રાધાન્ય આપો: સેનિટાઇઝેશન માટે DOMPurify, સ્ટ્રક્ચર્ડ ટેક્સ્ટ એક્સટ્રેક્શન માટે html-to-text અથવા htmlparser2, અને જ્યારે તમને DOM વૉક કરવાની જરૂર હોય ત્યારે Cheerio અથવા jsdom. આ લાઇબ્રેરીઝ નેસ્ટેડ ટેબલ્સ, એન્કોડિંગ ડિક્લેરેશન્સ, અને કન્ડિશનલ કોમેન્ટ્સ જેવા એજ કેસિસને regex પાસ કરતાં વધુ મજબૂતીથી હેન્ડલ કરે છે.