Computer Science

[CS] 아스키코드와 유니코드, EUC-KR과 UTF-8 차이

돼지표 2025. 5. 14. 19:08

아스키코드(ASCII)

  • 1960년대 미국에서 만들어진 문자 인코딩 표준.
  • 7비트(1바이트 미만)로 총 128개의 문자만 표현 가능(영문 대소문자, 숫자, 특수문자, 제어문자 등).
  • 영어 및 일부 특수문자만 지원하며, 한글이나 기타 비영어권 문자는 표현 불가.

유니코드(Unicode)

  • 전 세계 모든 언어의 문자를 일관되게 표현하기 위한 국제 표준 문자 집합.
  • 각 문자에 고유한 코드 포인트를 부여(U+XXXX 형식).
  • 16~32비트로 구성되어 14만 자 이상의 문자와 기호, 이모지까지 지원.
  • 아스키코드와 호환(초기 128문자는 동일).
구분 표현 가능 문자 수 비트 수 특징
ASCII 128 7비트 영어권 중심, 한글 불가
Unicode 143,859+ 16~32비트 다국어 지원, 코드포인트 부여

EUC-KR과 UTF-8의 차이

구분 지원 문자 범위 한글 표현 방식 바이트 수 특징 및 한계
EUC-KR 한글(완성형), 영문, 일부 한자 2바이트(고정) 한글 2바이트 한국어 전용, 다국어 지원 어려움
UTF-8 유니코드 전체(전 세계 문자) 3바이트(가변) 1~4바이트 다국어 지원, 국제 표준, ASCII 호환

EUC-KR

  • 한글, 영문, 일부 한자 및 특수기호만 지원.
  • 한글 한 글자를 2바이트로 고정 인코딩(완성형 한글 11,172자).
  • 한국어 환경에서는 효율적이지만, 다국어 지원이 불가능.

UTF-8

  • 유니코드의 대표적인 인코딩 방식, 전 세계 모든 문자 지원.
  • 1~4바이트 가변 길이 인코딩(영문은 1바이트, 한글은 3바이트).
  • ASCII와 완벽 호환(초기 128문자 동일).
  • 국제 표준으로 웹, 다양한 시스템에서 널리 사용.

요약

  • 아스키코드는 영어권 중심의 7비트 문자 집합, 유니코드는 전 세계 문자를 위한 국제 표준 문자 집합.
  • EUC-KR은 한글 전용 2바이트 고정 인코딩, UTF-8은 유니코드 기반의 다국어 가변 길이 인코딩.
  • 현대 웹과 글로벌 환경에서는 UTF-8이 표준으로 자리잡았으며, 다양한 언어와 이모지까지 지원 가능.