python中的编码问题
2018-06-28 本文已影响0人
来个芒果
个人速记
1. python3 和python2 的区别
python3 中有两种表示字符序列的类型:bytes 和 str
- bytes 字节流,即原始的8个二进制位,又名‘二进制字节流’
- str:unicode字符
Python2 中表示字符序列的类型为:str 和 unicode
- str:实为字节流,对应python3中的bytes
- unicode:unicode字符
注意:python2和3中的unicode都没有和任何特定的二进制编码形式相关联,要想把unicode字符转换为二进制数据,必须要用encode方法,把二进制数据转换为unicode字符,必须要用decode方法。
解码(需要有二进制编码):计算机是如何知道00110011对应‘a’呢?这就需要进行解码
编码(得到二进制编码):将a编码为00110011
2. unicode 、utf-8 、二进制三者之间的区别
- unicode
unicode只是一个符号集,它只规定了符号的二进制代码,没有规定这个二进制代码如何存储。
unicode编码系统是为表达任意语言而设计的,为了防止存储上的冗余(比如,对应ascii码的部分),其采用了变长编码,但变长编码给解码带来了困难,无法判断是几个字节表示一个字符
-
utf-8
是针对unicode变长编码设计的一种前缀码,根据前缀可判断unicode中的几个字节表示一个字符。
‘严’的 Unicode 是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,严的 UTF-8 编码是11100100 10111000 10100101,转换成十六进制就是E4B8A5。
一句话:
unicode只是一个符号集,只规定了符号的二进制代码;
而utf-8是针对unicode变长编码设计的一种前缀码,可以理解为是一种unicode的存储机制,是unicode的一种实现方式之一。
3. python中的编码和解码
以python2为例
解码:str.decode('utf-8') ,将字节流按照给定的解码方式utf8解码,并转换为unicode。
编码:u.encode('utf-8'),将unicode字符按照给定的编码方式转化为字节流str。
参考(区分先后):