DevToys Web Pro iconDevToys Web Proብሎግ
ደረጃ ይስጡን፦
የአሳሽ ቅጥያን ይሞክሩ፦

ጽሑፍ ↔ ዩኒኮድ መቀየሪያ

ሁነታ
ቅርጸት

ጽሑፍ

  • ዩኒኮድ

  • ቴክኒካዊ ዝርዝሮች

    የጽሑፍ ↔ ዩኒኮድ መቀየሪያው እንዴት እንደሚሰራ

    መሣሪያው ምን ያደርጋል

    የጽሑፍ ↔ ዩኒኮድ መሣሪያው ጽሑፍን ወደ ዩኒኮድ ኮድ ነጥቦች እና ከዚያ መልሶ በብዙ መጻፊያ መንገዶች ይቀይራል፡ U+XXXX፣ የJavaScript ኤስኬፕ (\uXXXX ወይም \u{XXXXX})፣ ዲሲማል፣ 0xHEX፣ እና የHTML ቁጥራዊ ኤንቲቲዎች (&#N; ወይም &#xHEX;)። ዲኮደሩ ተስማሚ ነው — ከጽሑፍ ጋር ተቀላቅለው የመጡ እነዚህን መጻፊያዎች ማንኛውንም ጥምረት ይለያል እና ኮድ ነጥቦቹን ያወጣል። ኤንኮደሩ የውጤት ቅርጸትን እና በኮድ ነጥቦች መካከል የሚለያይ መለያ (separator) እንዲመርጡ ያስችላል።

    የተለመዱ የገንቢ አጠቃቀም ሁኔታዎች

    የፊት-መጨረሻ (frontend) አበልጻጊዎች ኢሞጂ እና CJK ቁምፊዎችን ለJSON ፋይሎች፣ ምንጭ ኮድ፣ ወይም በገደብ ያላቸው ቻናሎች ላይ ለመላክ ደህንነቱ የተጠበቀ የASCII ኤስኬፕ ቅደም ተከተሎች እንዲሆኑ ለመቀየር ይጠቀሙበታል። የአካባቢያዊነት (localization) መሐንዲሶች በተተረጎመ ሕብረቁምፊ ውስጥ የተጠቀሙትን ትክክለኛ ኮድ ነጥቦች ያረጋግጣሉ። መሣሪያው እንዲሁም በተቀዳ ክፍል ውስጥ የተደበቁ የማይታዩ ወይም ተመሳሳይ የሚመስሉ ቁምፊዎችን (homoglyphs፣ zero-width joiners፣ RTL marks) ለመለየት ይረዳል።

    የውሂብ ቅርጾች፣ አይነቶች ወይም ልዩነቶች

    የዩኒኮድ መደበኛ መጻፊያ ለBasic Multilingual Plane U+XXXX እና ለተጨማሪ ፕላኖች U+XXXXX ነው። የJavaScript ኤስኬፕ ለBMP \uXXXX እና ለሙሉ ክልል \u{XXXXX} (ES2015+) ይጠቀማሉ። HTML ቁጥራዊ ኤንቲቲዎችን ይቀበላል (ዲሲማል &#N; ወይም ሄክስ &#xN;)። ቀላል ዲሲማል እና 0xHEX ቅርጾች በcodePointAt / fromCodePoint በኩል ያለ ተጨማሪ ትርጓሜ መመላለስ (round-trip) ያደርጋሉ። ከU+FFFF በላይ ያሉ አስትራል ቁምፊዎች (እንደ 🌍 ያሉ ኢሞጂ) እንደ አንድ ኮድ ነጥብ ይወከላሉ።

    የተለመዱ ስህተቶች እና የጠርዝ ሁኔታዎች

    አስትራል ቁምፊዎች በአሮጌው \uXXXX ቅርጽ ሊገለጹ አይችሉም ምክንያቱም እያንዳንዱ ኤስኬፕ 4 የሄክስ አሃዞች ብቻ ነው — \u{...} ወይም የsurrogate pair ይጠቀሙ። ከU+10FFFF በላይ ያሉ ኮድ ነጥቦች በUnicode መመዘኛ መሠረት ልክ አይደሉም እና ይከለከላሉ። የማጣመሪያ ምልክቶች (combining marks) እና የኢሞጂ ZWJ ቅደም ተከተሎች እንደ አንድ ግሊፍ ቢታዩም እንደ ብዙ ኮድ ነጥቦች ይታያሉ። ዲኮደሩ የHTML በስም የተሰየሙ ኤንቲቲዎችን (©፣ &) አይተረጉም — ለእነዚህ የተለየ የHTML ዲኮደር ይጠቀሙ።

    ይህን መሣሪያ ከኮድ ጋር መቼ መጠቀም እንደሚገባ

    ለፈጣን ምርመራ፣ የኤስኬፕ-ቅደም ተከተል መፍጠር፣ እና homoglyph መፈለግ የአሳሽ መሣሪያውን ይጠቀሙ። በኮድ ውስጥ የቋንቋውን ተፈጥሯዊ የሕብረቁምፊ API ይመርጡ (`String.fromCodePoint`, `Array.from(str)` ለJS ውስጥ በኮድ-ነጥብ መዞር; `chr` እና `ord` በPython; `Character.toCodePoint` በJava) እና መደበኛነት (NFC/NFD)፣ case folding፣ ወይም grapheme-cluster segmentation ሲያስፈልግዎ ሙሉ ICU ቤተ-መጻሕፍት ይጨምሩ።