Computer Science
[CS] 아스키코드와 유니코드, EUC-KR과 UTF-8 차이
돼지표
2025. 5. 14. 19:08
아스키코드(ASCII)
- 1960년대 미국에서 만들어진 문자 인코딩 표준.
- 7비트(1바이트 미만)로 총 128개의 문자만 표현 가능(영문 대소문자, 숫자, 특수문자, 제어문자 등).
- 영어 및 일부 특수문자만 지원하며, 한글이나 기타 비영어권 문자는 표현 불가.
유니코드(Unicode)
- 전 세계 모든 언어의 문자를 일관되게 표현하기 위한 국제 표준 문자 집합.
- 각 문자에 고유한 코드 포인트를 부여(U+XXXX 형식).
- 16~32비트로 구성되어 14만 자 이상의 문자와 기호, 이모지까지 지원.
- 아스키코드와 호환(초기 128문자는 동일).
구분 | 표현 가능 문자 수 | 비트 수 | 특징 |
---|---|---|---|
ASCII | 128 | 7비트 | 영어권 중심, 한글 불가 |
Unicode | 143,859+ | 16~32비트 | 다국어 지원, 코드포인트 부여 |
EUC-KR과 UTF-8의 차이
구분 | 지원 문자 범위 | 한글 표현 방식 | 바이트 수 | 특징 및 한계 |
---|---|---|---|---|
EUC-KR | 한글(완성형), 영문, 일부 한자 | 2바이트(고정) | 한글 2바이트 | 한국어 전용, 다국어 지원 어려움 |
UTF-8 | 유니코드 전체(전 세계 문자) | 3바이트(가변) | 1~4바이트 | 다국어 지원, 국제 표준, ASCII 호환 |
EUC-KR
- 한글, 영문, 일부 한자 및 특수기호만 지원.
- 한글 한 글자를 2바이트로 고정 인코딩(완성형 한글 11,172자).
- 한국어 환경에서는 효율적이지만, 다국어 지원이 불가능.
UTF-8
- 유니코드의 대표적인 인코딩 방식, 전 세계 모든 문자 지원.
- 1~4바이트 가변 길이 인코딩(영문은 1바이트, 한글은 3바이트).
- ASCII와 완벽 호환(초기 128문자 동일).
- 국제 표준으로 웹, 다양한 시스템에서 널리 사용.
요약
- 아스키코드는 영어권 중심의 7비트 문자 집합, 유니코드는 전 세계 문자를 위한 국제 표준 문자 집합.
- EUC-KR은 한글 전용 2바이트 고정 인코딩, UTF-8은 유니코드 기반의 다국어 가변 길이 인코딩.
- 현대 웹과 글로벌 환경에서는 UTF-8이 표준으로 자리잡았으며, 다양한 언어와 이모지까지 지원 가능.