உரை ↔ Unicode மாற்றி
உரை
யூனிகோடு
தொழில்நுட்ப விவரங்கள்
Text ↔ Unicode மாற்றி எப்படி செயல்படுகிறது
இந்த கருவி என்ன செய்கிறது
Text ↔ Unicode கருவி உரையை பல குறியீட்டு முறைகளில் Unicode code point-களாகவும் அதிலிருந்து உரையாகவும் மாற்றுகிறது: U+XXXX, JavaScript escapes (\uXXXX அல்லது \u{XXXXX}), decimal, 0xHEX, மற்றும் HTML numeric entities (&#N; அல்லது &#xHEX;). டிகோடர் தளர்வானது — உரையுடன் கலந்துள்ள இந்த குறியீட்டு முறைகளின் எந்தவொரு சேர்க்கையையும் அது அடையாளம் கண்டு code point-களை பிரித்தெடுக்கிறது. என்கோடர் வெளியீட்டு வடிவத்தையும் code point-களுக்கிடையிலான பிரிப்பானையும் நீங்கள் தேர்வு செய்ய அனுமதிக்கிறது.
டெவலப்பர்களுக்கான பொதுவான பயன்பாட்டு நிலைகள்
Frontend டெவலப்பர்கள் emoji மற்றும் CJK எழுத்துகளை JSON கோப்புகள், source code, அல்லது கட்டுப்பாடுகள் உள்ள சேனல்கள் வழியாக அனுப்புவதற்காக பாதுகாப்பான ASCII escape sequence-களாக மாற்ற இந்த கருவியைப் பயன்படுத்துகிறார்கள். Localization இன்ஜினியர்கள் மொழிபெயர்க்கப்பட்ட ஒரு சரத்தில் பயன்படுத்தப்பட்ட துல்லியமான code point-களை சரிபார்க்கிறார்கள். நகலெடுத்த ஒரு snippet-இன் உள்ளே மறைந்திருக்கும் கண்ணுக்குத் தெரியாத அல்லது ஒரே மாதிரி தோன்றும் எழுத்துகள் (homoglyphs, zero-width joiners, RTL marks) ஆகியவற்றை கண்டுபிடிக்கவும் இந்த கருவி உதவுகிறது.
தரவு வடிவங்கள், வகைகள், அல்லது மாறுபாடுகள்
Unicode தரநிலை குறியீடு Basic Multilingual Plane-க்கு U+XXXX மற்றும் supplementary planes-க்கு U+XXXXX ஆகும். JavaScript escapes BMP-க்கு \uXXXX மற்றும் முழு வரம்பிற்காக \u{XXXXX} (ES2015+) பயன்படுத்துகிறது. HTML numeric entities-ஐ (decimal &#N; அல்லது hex &#xN;) ஏற்கிறது. Plain decimal மற்றும் 0xHEX வடிவங்கள் கூடுதல் விளக்கமின்றி codePointAt / fromCodePoint வழியாக round-trip ஆகும். Astral எழுத்துகள் (🌍 போன்ற emoji) U+FFFF-க்கு மேல் உள்ள ஒரு ஒற்றை code point ஆக பிரதிநிதித்துவப்படுத்தப்படுகின்றன.
பொதுவான தவறுகள் மற்றும் விளிம்பு நிலைகள்
Astral எழுத்துகளை பழைய \uXXXX வடிவத்தில் வெளிப்படுத்த முடியாது, ஏனெனில் ஒவ்வொரு escape-மும் 4 hex இலக்கங்கள் மட்டுமே — \u{...} அல்லது surrogate pair பயன்படுத்தவும். U+10FFFF-க்கு மேற்பட்ட code point-கள் Unicode spec படி செல்லாதவை; அவை நிராகரிக்கப்படும். Combining marks மற்றும் emoji ZWJ sequence-கள் ஒரே glyph ஆக render ஆனாலும் பல code point-களாக தோன்றும். டிகோடர் HTML named entities (©, &) ஐ விளக்காது — அவற்றுக்கு தனிப்பட்ட HTML decoder ஒன்றைப் பயன்படுத்தவும்.
கோடுக்கு பதிலாக இந்த கருவியை எப்போது பயன்படுத்துவது
விரைவான ஆய்வு, escape-sequence உருவாக்கம், மற்றும் homoglyph தேடலுக்காக browser கருவியைப் பயன்படுத்தவும். கோடில், மொழி-உள்ளமை string API-களை (`String.fromCodePoint`, JS-ல் code-point iteration-க்கு `Array.from(str)`; Python-ல் `chr` மற்றும் `ord`; Java-வில் `Character.toCodePoint`) பயன்படுத்துவது சிறந்தது; normalization (NFC/NFD), case folding, அல்லது grapheme-cluster segmentation தேவைப்படும் போது முழுமையான ICU library-களையும் பயன்படுத்தவும்.