DevToys Web Pro iconDevToys Web Proבלוג
דרגו אותנו:
נסו את תוסף הדפדפן:

ממיר טקסט ↔ יוניקוד

מצב
פורמט

טקסט

  • יוניקוד

  • פרטים טכניים

    איך ממיר טקסט ↔ Unicode עובד

    מה הכלי עושה

    הכלי טקסט ↔ Unicode ממיר טקסט אל ומנקודות קוד של Unicode במספר סימונים: U+XXXX, רצפי בריחה של JavaScript ‏(\uXXXX או \u{XXXXX}), עשרוני, 0xHEX, וישויות מספריות של HTML ‏(&#N; או &#xHEX;). המפענח סלחני — הוא מזהה כל שילוב של סימונים אלה המשולב בתוך טקסט ומחלץ את נקודות הקוד. המקודד מאפשר לבחור את פורמט הפלט ואת המפריד בין נקודות הקוד.

    מקרי שימוש נפוצים למפתחים

    מפתחי פרונטאנד משתמשים בכלי כדי לתרגם אימוג'י ותווי CJK לרצפי בריחה בטוחים של ASCII עבור קובצי JSON, קוד מקור, או העברה בערוצים מגבילים. מהנדסי לוקליזציה מאמתים את נקודות הקוד המדויקות שבהן נעשה שימוש במחרוזת מתורגמת. הכלי גם מועיל לאיתור תווים בלתי נראים או דומים למראה (הומוגליפים, מחברי רוחב-אפס, סימוני RTL) שמסתתרים בתוך קטע שהועתק.

    פורמטי נתונים, טיפוסים או וריאנטים

    הסימון התקני של Unicode הוא U+XXXX עבור המישור הרב-לשוני הבסיסי ו-U+XXXXX עבור מישורים משלימים. רצפי הבריחה של JavaScript משתמשים ב-\uXXXX עבור BMP וב-\u{XXXXX} ‏(ES2015+) עבור כל הטווח. HTML מקבל ישויות מספריות (עשרוני &#N; או הקס &#xN;). פורמטים של עשרוני רגיל ו-0xHEX עוברים הלוך-ושוב דרך codePointAt / fromCodePoint ללא פרשנות נוספת. תווים אסטרליים (אימוג'י כמו 🌍) מיוצגים כנקודת קוד אחת מעל U+FFFF.

    מלכודות נפוצות ומקרי קצה

    לא ניתן לבטא תווים אסטרליים באמצעות הצורה הישנה \uXXXX משום שכל רצף בריחה הוא רק 4 ספרות הקס — השתמשו ב-\u{...} או בזוג סורוגייט. נקודות קוד מעל U+10FFFF אינן תקפות לפי מפרט Unicode ויידחו. סימני שילוב ורצפי אימוג'י ZWJ מופיעים כמספר נקודות קוד אף שהם מוצגים כגליף יחיד. המפענח לא יפרש ישויות בשם של HTML ‏(©, &) — השתמשו במפענח HTML ייעודי עבור אלה.

    מתי להשתמש בכלי הזה לעומת קוד

    השתמשו בכלי הדפדפן לבדיקה מהירה, יצירת רצפי בריחה, וציד הומוגליפים. בקוד, העדיפו ממשקי API מובנים של מחרוזות בשפה (`String.fromCodePoint`, `Array.from(str)` לאיטרציה לפי נקודות קוד ב-JS; `chr` ו-`ord` ב-Python; `Character.toCodePoint` ב-Java) וכן ספריות ICU מלאות כאשר נדרשים נרמול (NFC/NFD), קיפול רישיות, או סגמנטציה של אשכולות גרפמה.