python中的编码问题

2018-06-28 本文已影响0人来个芒果

个人速记

1. python3 和python2 的区别

python3 中有两种表示字符序列的类型：bytes 和 str

Python2 中表示字符序列的类型为：str 和 unicode

注意：python2和3中的unicode都没有和任何特定的二进制编码形式相关联，要想把unicode字符转换为二进制数据，必须要用encode方法，把二进制数据转换为unicode字符，必须要用decode方法。

解码（需要有二进制编码）：计算机是如何知道00110011对应‘a’呢？这就需要进行解码
编码（得到二进制编码）：将a编码为00110011

2. unicode 、utf-8 、二进制三者之间的区别

unicode只是一个符号集，它只规定了符号的二进制代码，没有规定这个二进制代码如何存储。
unicode编码系统是为表达任意语言而设计的，为了防止存储上的冗余（比如，对应ascii码的部分），其采用了变长编码，但变长编码给解码带来了困难，无法判断是几个字节表示一个字符

utf-8
是针对unicode变长编码设计的一种前缀码，根据前缀可判断unicode中的几个字节表示一个字符。

‘严’的 Unicode 是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，严的 UTF-8 编码是11100100 10111000 10100101，转换成十六进制就是E4B8A5。

一句话：
unicode只是一个符号集，只规定了符号的二进制代码；
而utf-8是针对unicode变长编码设计的一种前缀码，可以理解为是一种unicode的存储机制，是unicode的一种实现方式之一。

3. python中的编码和解码
以python2为例
解码：str.decode('utf-8') ，将字节流按照给定的解码方式utf8解码，并转换为unicode。
编码：u.encode('utf-8')，将unicode字符按照给定的编码方式转化为字节流str。

参考（区分先后）：