회원가입아이디/비번찾기
실시간 TV
홈으로
Python 2.x 한글 인코딩 관련 정리
7년 전
개요

파이썬은 양놈이 만든 언어라서 한글을 쓸때 골치아프다 (아니, 한글만 골치아픈게 지옥의 언어 CJK(chiness, japanese, korean)를 포함한 멀티바이트 언어는 전부 그렇겠지). 영어만 사용하면 별로 신경쓸게 없지만 한글은 euc-kr, utf-8이 공존하지 않는가?

그냥 골치아픈것도 아니고 unicode와 조합되서도 골치아프다. unicode관련 부분의 경우, 최초부터 지원한게 아니라 파이썬 2.4(엿던가?)부터 지원이 추가되어서 문자열을 의미하는 타입이 str과 unicode가 존재해서 더 골치아프다. 이런 문제는 파이썬 3.X로 가면 거의 없어지지만(그 동네는 unicode로 통일됏다고하더라.) 외부 라이브러리라든가 기타 사정상 파이썬 2.x를 써야되는 환경도 아직 많이 남아있어서 내가 삽질했던걸 한번 정리해봤다.

python script에 한글 사용하기

print '한글'
python 스크립트 파일에 위의 내용을 적고 실행해보자. 아래와 같은 에러가 나온다.

SyntaxError: Non-ASCII character '\xc7' in file euckr-error.py on line 1, but no
encoding declared; see http://www.python.org/peps/pep-0263.html for details
파이썬의 기본 인코딩은 ascii이다. 스크립트 파일이 ascii 인코딩일거라고 가정하고 읽어서 파싱할라고 하는데 ascii로 해석이 불가능한 한글이라는 단어가 존재하기 떄문에 SyntaxError(문법에러)가 발생한 것이다. 이를 해결하기 위해서는 아래와 같이 스크립트 파일 첫줄에 파일의 인코딩을 명시해주면 된다.

#-*- coding: utf-8 -*-
print '한글'
#-*- coding: euc-kr -*-
print '한글'
str - unicode 변환

s = 'english'
print str(unicode(s))
위와 같이 영어 문자열을 Unicode로 바꿧다가 str로 바꾸는 코드를 실행하면 잘 돌아간다. 그러면 한글을 집어넣고 돌려보자.

#-*- coding: utf-8 -*-
s = '한글'
print str(unicode(s))
    print str(unicode(s))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc7 in position 0: ordinal
not in range(128)
뒤진다. 훗. 그래야 한글답지. 에러를 보면 UnicodeDecodeError(유니코드 해석 에러)가 발생한다. python script에 한글 사용하기와는 다른 에러다. 이번에 발생한 에러를 해석하자면 '한글'을 ascii라고 간주하고 유니코드로 변환하려고 시도했으나 해석이 안되서 발생한 에러이다. 이를 해결하기 위해서는 아래의 소스와 같이 명시적으로 문자열을 utf-8로 간주하고 unicode로 변환하도록 할수있다.

#-*- coding: utf-8 -*-
s = '한글'
print s.decode('utf-8').encode('utf-8')
하지만 위의 소스는 만능이 아니다. 외부 라이브러리를 만든 사람이 문자열을 유니코드로, 유니코드를 문자열로 변환할때 인코딩을 명시적으로 적지 않앗다고 가정하자. 양놈이 그런코딩을 했으면 자신의 환경에서는 문제없이 잘 작동한다. (아래코드가 예시)

foo = unicode(s)
...
bar = str(foo)
하지만, 양놈이 만든 라이브러리를 우리가 가져다 사용하는데 함수의 인자로 한글을 사용하게 된다면 어떨까? 위에서 이야기한것과 같이 UnicodeDecodeError가 발생하고 망한다. 이를 해결하겟다고 라이브러리에서 유니코드 관련 인코딩/디코딩하는 지점에 전부 인코딩을 명시적으로 적어주는건 사람이 할 짓이 아니다. 만약 Unicode로 인코딩/디코딩할때 사용할 기본 인코딩을 ascii대신 utf-8로 바꿔주면 쉽게 해결할수 있지 않을까? sys.setdefaultencoding가 바로 이럴 때 사용하는 함수이다.

#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

s = '한글'
print str(unicode(s))
위와 같이 기본 인코딩을 ascii대신 utf-8로 바꿔주는 내용을 스크립트 파일을 최초 진입부에 집어넣으면 된다. #-*- coding: utf-8 -*-과 달리 저것은 함수라서 호출된 이후, 계속 유지된다. 적절한곳에 한번만 넣어주면 된다. 참고로 reload(sys)를 하지 않으면 sys.setdefaultencoding함수를 사용할 수 없다.
추천추천 : 320 추천 목록
번호 제목
2,885
 input 입력 필드 앞뒤 공백 실시간 제거
2,884
 Placeholder 포커스시 감추기
2,883
 MySQL 중복된 데이터를 삭제
2,882
 MySQL 중복 데이터 확인
2,881
 sessionStorage.getItem 와 sessionStorage.setItem
2,880
 제이쿼리 랜덤으로 배경색 변경
2,879
 preg match에 관한 정규식
2,878
 Stream an audio file with MediaPlayer 오디오 파일 스트리밍 하기
2,877
 Audio Streaming PHP Code
2,876
 PHP $ SERVER 환경 변수 정리
2,875
 Vimeo (비메오) API 를 사용하여 플레이어 컨트롤하기
2,874
 iframe 사용시 하단에 발생하는 공백 제거방법
2,873
 아이프레임(iframe) 전체화면 가능하게 하기
2,872
 부트스트랩(bootstrapk)에서 사용하는 class명 정리
2,871
 부트스트랩 CSS
2,870
 크롬에서 마진 조절
2,869
 PHP 현재 페이지의 도메인명이나 url등의 정보 알아오기
2,868
 PHP preg match all()
2,867
 PHP 로 웹페이지 긁어오기 모든 방법 총정리!
2,866
 [PHP] 원격지 파일 주소 노출 안하고 curl로 다운로드 받기
2,865
 PHP 함수 정리
2,864
 아이프레임(iframe) 비율 유지하면서 크기 조절하는 방법
2,863
 PHP 배열에서 무작위로 하나 뽑아주는 array rand() 함수
2,862
 PHP 정규식 정리
2,861
 PHP 정규식을 활용한 태그 및 특정 문자열 제거 및 추출 방법
2,860
 php 크롤링 또는 파싱 함수, 정규식 모음
2,859
 제이쿼리 기본 명령어
2,858
 웹페이지 가로 모드세로 모드 인식하기
2,857
 모바일 웹 화면 강제 회전(가로모드 고정)
2,856
 [HTML5]에서 frameset 대체 방법과 iframe 속성
목록
뮤직트로트 부산광역시 부산진구 가야동 ㅣ 개인정보취급방침
Copyright ⓒ musictrot All rights reserved.