DevToys Web Pro iconDevToys Web ProΙστολόγιο
Αξιολογήστε μας:
Δοκιμάστε την επέκταση προγράμματος περιήγησης:

Μετατροπέας Κειμένου ↔ Unicode

Λειτουργία
Μορφή

Κείμενο

  • Unicode

  • Τεχνικές λεπτομέρειες

    Πώς λειτουργεί ο μετατροπέας Κειμένου ↔ Unicode

    Τι κάνει το εργαλείο

    Το εργαλείο Κείμενο ↔ Unicode μετατρέπει κείμενο προς και από σημεία κώδικα Unicode σε πολλαπλές σημειογραφίες: U+XXXX, διαφυγές JavaScript (\uXXXX ή \u{XXXXX}), δεκαδική, 0xHEX και αριθμητικές οντότητες HTML (&#N; ή &#xHEX;). Ο αποκωδικοποιητής είναι επιεικής — αναγνωρίζει οποιονδήποτε συνδυασμό αυτών των σημειογραφιών ανάμεσα σε κείμενο και εξάγει τα σημεία κώδικα. Ο κωδικοποιητής σάς επιτρέπει να επιλέξετε τη μορφή εξόδου και έναν διαχωριστή ανάμεσα στα σημεία κώδικα.

    Συνηθισμένες περιπτώσεις χρήσης για προγραμματιστές

    Οι προγραμματιστές frontend χρησιμοποιούν το εργαλείο για να μετατρέπουν emoji και χαρακτήρες CJK σε ασφαλείς ακολουθίες διαφυγής ASCII για αρχεία JSON, πηγαίο κώδικα ή μεταφορά μέσω περιοριστικών καναλιών. Οι μηχανικοί τοπικοποίησης επαληθεύουν τα ακριβή σημεία κώδικα που χρησιμοποιούνται σε μια μεταφρασμένη συμβολοσειρά. Το εργαλείο είναι επίσης χρήσιμο για τον εντοπισμό αόρατων ή παρόμοιων χαρακτήρων (homoglyphs, συνδέτες μηδενικού πλάτους, σημάδια RTL) που κρύβονται μέσα σε ένα αντιγραμμένο απόσπασμα.

    Μορφές δεδομένων, τύποι ή παραλλαγές

    Η τυπική σημειογραφία του Unicode είναι U+XXXX για το Basic Multilingual Plane και U+XXXXX για τα συμπληρωματικά επίπεδα. Οι διαφυγές JavaScript χρησιμοποιούν \uXXXX για το BMP και \u{XXXXX} (ES2015+) για όλο το εύρος. Η HTML δέχεται αριθμητικές οντότητες (δεκαδικές &#N; ή δεκαεξαδικές &#xN;). Οι απλές δεκαδικές και οι μορφές 0xHEX κάνουν round-trip μέσω codePointAt / fromCodePoint χωρίς περαιτέρω ερμηνεία. Οι αστρικοί χαρακτήρες (emoji όπως 🌍) αναπαρίστανται ως ένα μόνο σημείο κώδικα πάνω από το U+FFFF.

    Συνηθισμένα λάθη και οριακές περιπτώσεις

    Οι αστρικοί χαρακτήρες δεν μπορούν να εκφραστούν με την παλαιότερη μορφή \uXXXX, επειδή κάθε διαφυγή έχει μόνο 4 δεκαεξαδικά ψηφία — χρησιμοποιήστε \u{...} ή ένα ζεύγος υποκατάστασης (surrogate pair). Τα σημεία κώδικα πάνω από το U+10FFFF είναι άκυρα σύμφωνα με την προδιαγραφή Unicode και θα απορριφθούν. Τα συνδυαστικά σημάδια και οι ακολουθίες emoji ZWJ εμφανίζονται ως πολλαπλά σημεία κώδικα, παρότι αποδίδονται ως ένα μόνο γλύφο. Ο αποκωδικοποιητής δεν θα ερμηνεύσει επώνυμες οντότητες HTML (©, &) — χρησιμοποιήστε έναν ειδικό αποκωδικοποιητή HTML για αυτά.

    Πότε να χρησιμοποιήσετε αυτό το εργαλείο έναντι κώδικα

    Χρησιμοποιήστε το εργαλείο του browser για γρήγορο έλεγχο, δημιουργία ακολουθιών διαφυγής και εντοπισμό homoglyphs. Στον κώδικα, προτιμήστε τα εγγενή API συμβολοσειρών της γλώσσας (`String.fromCodePoint`, `Array.from(str)` για επανάληψη ανά σημείο κώδικα σε JS· `chr` και `ord` σε Python· `Character.toCodePoint` σε Java) καθώς και πλήρεις βιβλιοθήκες ICU όταν χρειάζεστε κανονικοποίηση (NFC/NFD), case folding ή τμηματοποίηση συμπλεγμάτων γραφημάτων (grapheme clusters).