4장. 개발자가 꼭 알아둬야 할 유니코드와 문자 집합에 대한 고찰 1편
우리가 사는 세계 에는 여러가지 언어들이 존재한다
하지만 많은 소프트웨어 개발자가 문자집합, 인코딩, 유니코드와같은 신비로운 세계를 빨리 따라 잡지 못한다는거에 낙남을 한다고 한다. 우리가 많이 아는 아스키 코드는 문자 하나 담는 데이터사이즈는 2바이트 밖에 되지 않습니다.
그러나 우리가 아는 세계언어 는 문자하나에 2바이트를 담는게 불가능할수있다. 각자의 나라에서 쓰는 문자는 쓸수 있어도 중국의 언어가 들어있는 문자열을 한국에서 열어봤다고 치면 이 문자가 중국말인지 한국말인지 알수가 없다
한국에서 열어본 문자열은 그저 쓰레기 값이될수 밖에없다 그래서 한국말로 궯냟쒊꿜 같은 문자로 표현될수가있다.
그러면 우리는 어떻게 이문제를 해결 해야 하는가 이다 . 그 문제 해결은 이미 나와있다. UTF-8 유니코드이다
가변길이 문자열로 이문자열 안에는 이 문자열이 한국말로 되어있는지 영어로 되어있는지 중국어로 되어있는지 알수있는 구분 코드가 있다.
'개발 > 개발서적' 카테고리의 다른 글
하루하루 읽다보면 늘어가는 개발지식 조엘 온 소프트웨어편 6 (0) | 2021.04.16 |
---|---|
하루하루 읽다보면 늘어가는 개발지식 조엘 온 소프트웨어편 5 (0) | 2021.04.15 |
하루하루 읽다보면 늘어가는 개발지식 조엘 온 소프트웨어편 3 (0) | 2021.04.10 |
하루하루 읽다보면 늘어가는 개발지식 조엘 온 소프트웨어편 2 (0) | 2021.04.08 |
하루하루 읽다보면 늘어가는 개발지식 조엘 온 소프트웨어편 1 (0) | 2021.04.07 |