[CS] 아스키코드와 유니코드, EUC-KR과 UTF-8 차이

Computer Science

[CS] 아스키코드와 유니코드, EUC-KR과 UTF-8 차이

돼지표 2025. 5. 14. 19:08

아스키코드(ASCII)

1960년대 미국에서 만들어진 문자 인코딩 표준.
7비트(1바이트 미만)로 총 128개의 문자만 표현 가능(영문 대소문자, 숫자, 특수문자, 제어문자 등).
영어 및 일부 특수문자만 지원하며, 한글이나 기타 비영어권 문자는 표현 불가.

유니코드(Unicode)

전 세계 모든 언어의 문자를 일관되게 표현하기 위한 국제 표준 문자 집합.
각 문자에 고유한 코드 포인트를 부여(U+XXXX 형식).
16~32비트로 구성되어 14만 자 이상의 문자와 기호, 이모지까지 지원.
아스키코드와 호환(초기 128문자는 동일).

구분	표현 가능 문자 수	비트 수	특징
ASCII	128	7비트	영어권 중심, 한글 불가
Unicode	143,859+	16~32비트	다국어 지원, 코드포인트 부여

EUC-KR과 UTF-8의 차이

구분	지원 문자 범위	한글 표현 방식	바이트 수	특징 및 한계
EUC-KR	한글(완성형), 영문, 일부 한자	2바이트(고정)	한글 2바이트	한국어 전용, 다국어 지원 어려움
UTF-8	유니코드 전체(전 세계 문자)	3바이트(가변)	1~4바이트	다국어 지원, 국제 표준, ASCII 호환

EUC-KR

한글, 영문, 일부 한자 및 특수기호만 지원.
한글 한 글자를 2바이트로 고정 인코딩(완성형 한글 11,172자).
한국어 환경에서는 효율적이지만, 다국어 지원이 불가능.

UTF-8

유니코드의 대표적인 인코딩 방식, 전 세계 모든 문자 지원.
1~4바이트 가변 길이 인코딩(영문은 1바이트, 한글은 3바이트).
ASCII와 완벽 호환(초기 128문자 동일).
국제 표준으로 웹, 다양한 시스템에서 널리 사용.

요약

아스키코드는 영어권 중심의 7비트 문자 집합, 유니코드는 전 세계 문자를 위한 국제 표준 문자 집합.
EUC-KR은 한글 전용 2바이트 고정 인코딩, UTF-8은 유니코드 기반의 다국어 가변 길이 인코딩.
현대 웹과 글로벌 환경에서는 UTF-8이 표준으로 자리잡았으며, 다양한 언어와 이모지까지 지원 가능.