텍스트 ↔ 유니코드 변환기
텍스트
유니코드
기술적 세부 정보
텍스트 ↔ 유니코드 변환기가 작동하는 방식
도구가 하는 일
텍스트 ↔ 유니코드 도구는 텍스트를 여러 표기법의 유니코드 코드 포인트로 변환하거나 그 반대로 변환합니다: U+XXXX, JavaScript 이스케이프(\uXXXX 또는 \u{XXXXX}), 10진수, 0xHEX, HTML 숫자 엔티티(&#N; 또는 &#xHEX;). 디코더는 관대하게 동작하여 텍스트 사이에 섞여 있는 이러한 표기법의 어떤 조합이든 인식하고 코드 포인트를 추출합니다. 인코더는 출력 형식과 코드 포인트 사이의 구분자를 선택할 수 있게 해줍니다.
개발자들이 흔히 사용하는 사례
프론트엔드 개발자는 이 도구를 사용해 이모지와 CJK 문자를 JSON 파일, 소스 코드, 또는 제약이 있는 전송 채널에서 안전한 ASCII 이스케이프 시퀀스로 변환합니다. 로컬라이제이션 엔지니어는 번역된 문자열에 사용된 정확한 코드 포인트를 검증합니다. 또한 복사한 스니펫 안에 숨어 있는 보이지 않거나 비슷하게 보이는 문자(동형 이의 문자, 제로 폭 조이너, RTL 마크)를 찾아내는 데도 유용합니다.
데이터 형식, 타입 또는 변형
유니코드 표준 표기법은 기본 다국어 평면(BMP)에는 U+XXXX, 보조 평면에는 U+XXXXX를 사용합니다. JavaScript 이스케이프는 BMP에는 \uXXXX를, 전체 범위에는 \u{XXXXX}(ES2015+)를 사용합니다. HTML은 숫자 엔티티(10진수 &#N; 또는 16진수 &#xN;)를 허용합니다. 순수 10진수와 0xHEX 형식은 추가 해석 없이 codePointAt / fromCodePoint를 통해 왕복 변환됩니다. 아스트랄 문자(🌍 같은 이모지)는 U+FFFF를 초과하는 단일 코드 포인트로 표현됩니다.
흔한 함정과 엣지 케이스
아스트랄 문자는 각 이스케이프가 16진수 4자리뿐인 오래된 \uXXXX 형식으로는 표현할 수 없습니다 — \u{...} 또는 서로게이트 페어를 사용하세요. U+10FFFF를 초과하는 코드 포인트는 유니코드 사양상 유효하지 않으며 거부됩니다. 결합 문자와 이모지 ZWJ 시퀀스는 화면에는 하나의 글리프로 렌더링되더라도 여러 코드 포인트로 나타납니다. 디코더는 HTML 이름 엔티티(©, &)를 해석하지 않습니다 — 이런 경우에는 전용 HTML 디코더를 사용하세요.
코드 대신 이 도구를 사용해야 하는 경우
빠른 검사, 이스케이프 시퀀스 생성, 동형 이의 문자 탐지를 위해 브라우저 도구를 사용하세요. 코드에서는 언어 기본 문자열 API(JS에서 `String.fromCodePoint`, 코드 포인트 반복을 위한 `Array.from(str)`; Python의 `chr` 및 `ord`; Java의 `Character.toCodePoint`)를 우선 사용하고, 정규화(NFC/NFD), 대소문자 폴딩, 또는 그래핌 클러스터 분할이 필요할 때는 전체 ICU 라이브러리를 사용하세요.