홈으로 | 무료회원가입 | 아이디/비번찾기
추천음악방송
Python 2.x 한글 인코딩 관련 정리
6년 전
개요

파이썬은 양놈이 만든 언어라서 한글을 쓸때 골치아프다 (아니, 한글만 골치아픈게 지옥의 언어 CJK(chiness, japanese, korean)를 포함한 멀티바이트 언어는 전부 그렇겠지). 영어만 사용하면 별로 신경쓸게 없지만 한글은 euc-kr, utf-8이 공존하지 않는가?

그냥 골치아픈것도 아니고 unicode와 조합되서도 골치아프다. unicode관련 부분의 경우, 최초부터 지원한게 아니라 파이썬 2.4(엿던가?)부터 지원이 추가되어서 문자열을 의미하는 타입이 str과 unicode가 존재해서 더 골치아프다. 이런 문제는 파이썬 3.X로 가면 거의 없어지지만(그 동네는 unicode로 통일됏다고하더라.) 외부 라이브러리라든가 기타 사정상 파이썬 2.x를 써야되는 환경도 아직 많이 남아있어서 내가 삽질했던걸 한번 정리해봤다.

python script에 한글 사용하기

print '한글'
python 스크립트 파일에 위의 내용을 적고 실행해보자. 아래와 같은 에러가 나온다.

SyntaxError: Non-ASCII character '\xc7' in file euckr-error.py on line 1, but no
encoding declared; see http://www.python.org/peps/pep-0263.html for details
파이썬의 기본 인코딩은 ascii이다. 스크립트 파일이 ascii 인코딩일거라고 가정하고 읽어서 파싱할라고 하는데 ascii로 해석이 불가능한 한글이라는 단어가 존재하기 떄문에 SyntaxError(문법에러)가 발생한 것이다. 이를 해결하기 위해서는 아래와 같이 스크립트 파일 첫줄에 파일의 인코딩을 명시해주면 된다.

#-*- coding: utf-8 -*-
print '한글'
#-*- coding: euc-kr -*-
print '한글'
str - unicode 변환

s = 'english'
print str(unicode(s))
위와 같이 영어 문자열을 Unicode로 바꿧다가 str로 바꾸는 코드를 실행하면 잘 돌아간다. 그러면 한글을 집어넣고 돌려보자.

#-*- coding: utf-8 -*-
s = '한글'
print str(unicode(s))
    print str(unicode(s))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc7 in position 0: ordinal
not in range(128)
뒤진다. 훗. 그래야 한글답지. 에러를 보면 UnicodeDecodeError(유니코드 해석 에러)가 발생한다. python script에 한글 사용하기와는 다른 에러다. 이번에 발생한 에러를 해석하자면 '한글'을 ascii라고 간주하고 유니코드로 변환하려고 시도했으나 해석이 안되서 발생한 에러이다. 이를 해결하기 위해서는 아래의 소스와 같이 명시적으로 문자열을 utf-8로 간주하고 unicode로 변환하도록 할수있다.

#-*- coding: utf-8 -*-
s = '한글'
print s.decode('utf-8').encode('utf-8')
하지만 위의 소스는 만능이 아니다. 외부 라이브러리를 만든 사람이 문자열을 유니코드로, 유니코드를 문자열로 변환할때 인코딩을 명시적으로 적지 않앗다고 가정하자. 양놈이 그런코딩을 했으면 자신의 환경에서는 문제없이 잘 작동한다. (아래코드가 예시)

foo = unicode(s)
...
bar = str(foo)
하지만, 양놈이 만든 라이브러리를 우리가 가져다 사용하는데 함수의 인자로 한글을 사용하게 된다면 어떨까? 위에서 이야기한것과 같이 UnicodeDecodeError가 발생하고 망한다. 이를 해결하겟다고 라이브러리에서 유니코드 관련 인코딩/디코딩하는 지점에 전부 인코딩을 명시적으로 적어주는건 사람이 할 짓이 아니다. 만약 Unicode로 인코딩/디코딩할때 사용할 기본 인코딩을 ascii대신 utf-8로 바꿔주면 쉽게 해결할수 있지 않을까? sys.setdefaultencoding가 바로 이럴 때 사용하는 함수이다.

#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

s = '한글'
print str(unicode(s))
위와 같이 기본 인코딩을 ascii대신 utf-8로 바꿔주는 내용을 스크립트 파일을 최초 진입부에 집어넣으면 된다. #-*- coding: utf-8 -*-과 달리 저것은 함수라서 호출된 이후, 계속 유지된다. 적절한곳에 한번만 넣어주면 된다. 참고로 reload(sys)를 하지 않으면 sys.setdefaultencoding함수를 사용할 수 없다.
추천추천 : 287 추천 목록
번호 제목
3,030
 제이쿼리 기본 명령어
3,029
 웹페이지 가로 모드세로 모드 인식하기
3,028
 모바일 웹 화면 강제 회전(가로모드 고정)
3,027
 [HTML5]에서 frameset 대체 방법과 iframe 속성
3,026
 HTML <Audio> 사용법
3,025
 윈도우10 시스템파일 손상 (초간단 오류 복구방법!!)
3,024
 PHP 파일 존재 여부 파악하기(로컬 파일 존재 및 원격지 파일 존재)
3,023
 [CSS] 박스 세로 가운데 중앙 정렬 6가지
3,022
 CSS Layout 수평 & 수직 정렬
3,021
 여러 도메인들 간 쿠키 공유하기
3,020
 태그 사이에 있는 텍스트를 추출
3,019
 [JQuery] textbox focus on off일때 숫자 콤마 보여주기
3,018
 쿠키 생성,가져오기,삭제
3,017
 사용자 함수 모음
3,016
 마우스,키보드 제한 ( 오른쪽클릭,드래그,영역선택등..)
3,015
 [HTML5] <video> - DOM으로 제어하기
3,014
 HTML5 video 태그에서 영상 좌우반전
3,013
 PHP - 특정 태그 및 문자열 추출, 제거
3,012
 [PHP] define과 defined의 차이
3,011
 우클릭 완벽차단 스크립트
3,010
 iframe 높이 100% 맞추기
3,009
 curl 함수를 이용한 HTTP REFERER 변경
3,008
 윈도우10 시스템 파일 및 Dism 검사
3,007
 텍스트 줄바꿈, 글자자르기 CSS
3,006
 jQuery Mobile에서 유용한 코드 10가지.
목록
뮤직트로트 부산광역시 부산진구 가야동 ㅣ 개인정보취급방침
Copyright (C) musictrot All rights reserved.