先要弄清楚的是,在python里,string object和unicode object是两种不同的类型。
原文博主--
string object是由characters组成的sequence,而unicode object是Unicode code units组成的sequence。string里的character是有多种编码方式的,比如单字节的ASCII,双字节的GB2312等等,再比如UTF-8。很明显要想解读string,必需知道string里的character是用哪种编码方式,然后才能进行。Unicode code unit又是什么东西呢?一个Unicode code unit是一个16-bit或者32-bit的数值,每个数值代表一个unicode符号。在python里,16-bit的unicode,对应的是ucs2编码。32-bit对应的是ucs4编码。是不是感觉string里character的编码没什么区别?反正我现在脑子里就是这样一个印象:在Python里,ucs2或者ucs4编码的,我们叫做unicode object,其他编码的我们就叫做string。至于python里的unicode到底是ucs2还是ucs4的,可以在编译时指定。例如Linux下,要用ucs2做unicode的编码,可以这样# ./configure --enable-unicode=ucs2 # make# make install下载的Windows预编译版本,一般都是ucs2的。要想知道某个python运行环境是ucs2还是ucs4,可以查看sys.maxunicde,65535就是ucs2的,另一个很大的数值就是ucs4。下面我们看看string和unicode在python里的不同我们先看看在简体中文Windows 2003系统下,系统编码是GBK>>> a = '你好'>>> a'/xc4/xe3/xba/xc3'>>> b = u'你好'>>> bu'/u4f60/u597d'>>> print a你好>>> print b你好>>> a.__class__<type 'str'>>>> b.__class__<type 'unicode'>>>> len(a)4>>> len(b)2在一个系统编码为UTF-8的Linux环境下>>> a = '你好'>>> a'/xe4/xbd/xa0/xe5/xa5/xbd'>>> b = u'你好'>>> bu'/u4f60/u597d'>>> print a你好>>> print b你好>>> a.__class__<type 'str'>>>> b.__class__<type 'unicode'>>>> len(a)6>>> len(b)2如何?简单总结一下:1、string直接用引号来表示,unicode在引号前加一个u2、直接输入的string常量会用系统缺省编码方式来编码,例如在GBK环境下,'你好'会编码成'/xc4/xe3/xba/xc3',而在UTF-8环境下就成了'/xe4/xbd/xa0/xe5/xa5/xbd'。3、len(string)返回string的字节数,len(unicode)返回的是字符数4、很重要的一点,print unicode不会乱码。现在我们常用的Linux、Windows系统,都是支持unicode的,版本太老的不算。比如Windows 2003支持ucs2,所以在中文Windows2003下,除了可以正常显示缺省的GBK编码外,还可以正常显示ucs2编码。举个例子,还是在中文Windows 2003的GBK环境下:>>>a = '/xe4/xbd/xa0/xe5/xa5/xbd' # UTF-8的'你好'>>> print a浣犲ソ>>> b = unicode(a, "UTF-8")>>> bu'/u4f60/u597d'>>> print b你好应该明白了吧?下面再说说string和unicode的相互转换,什么unicode()、decode()、encode()、codecs之类的。继续。先说一下,前面提到,print(string)的时候,如果string是按当前环境编码方式编码的,可以正常输出,不会乱码;如果string不是当前编码的,就会乱码。而print(unicode)是不会乱码的。why?应为print(unicode)的时候,会把unicode先转成当前编码,然后再输出。我没看过print的源码,不过估计是这样的。string转unicode或者unicode转string,是很常见的操作。string和unicode都有decode()和encode()方法。decode是string2unicode,encode自然就是unicode2string。看个例子(中文Windows2003下):>>> a = '你好'>>> a'/xc4/xe3/xba/xc3'>>> b = u'你好'>>> c = a.decode('gbk') #gbk string to unicode>>> b == cTrue>>> cu'/u4f60/u597d'>>> d = b.encode('gbk') #unicode to gbk string>>> d == aTrue>>> d'/xc4/xe3/xba/xc3'>>> e = b.encode('utf-8') #unicode to utf-8 string>>> e'/xe4/xbd/xa0/xe5/xa5/xbd'decode或者encode的时候,如果不指定编码方式,会按照缺省编码方式来处理。查看、设置缺省编码方式可以这样做:>>> import sys>>> sys.getdefaultencoding()'ascii'>>> reload(sys) <module 'sys' (built-in)>>>> sys.setdefaultencoding('gbk')上面调用sys.setdefaultencoding()的时候先reload一下sys module,原因是python启动时缺省会import site.py, 而site.py会del sys.setdefaultencoding(),所以需要reload(sys)。具体可以看看site.py的源码。接下来说说unicode()函数。其实unicode函数就是调用string的decode()方法,把string转成unicode,例如:>>> a = '你好'>>> b = unicode(a)>>> bu'/u4f60/u597d'>>> c = a.decode('gbk')>>> cu'/u4f60/u597d'>>> print b, c, b==c你好 你好 True下一部分说说codec
最后说说关于codecs。所谓的codec就是编码器和解码器(encoder and decoder)的集合。除了各种字符串编码的codec,还有各种文件格式的codec,比如压缩、解压缩的,图像的,音频的,等等。我们这里说的当然是跟字符串编码相关的了。看看代码>>> import codecs>>> gbk=codecs.lookup('gbk')>>> gbk<codecs.CodecInfo object for encoding gbk at 0xad3ea0>>>> gbk.decode("你好")(u'/u4f60/u597d', 4)>>> gbk.encode(u'/u4f60/u597d')('/xc4/xe3/xba/xc3', 2)