python中的编码问题

2018-06-28  本文已影响0人  来个芒果

个人速记

1. python3 和python2 的区别

python3 中有两种表示字符序列的类型:bytes 和 str

Python2 中表示字符序列的类型为:str 和 unicode

注意:python2和3中的unicode都没有和任何特定的二进制编码形式相关联,要想把unicode字符转换为二进制数据,必须要用encode方法,把二进制数据转换为unicode字符,必须要用decode方法。

解码(需要有二进制编码):计算机是如何知道00110011对应‘a’呢?这就需要进行解码
编码(得到二进制编码):将a编码为00110011

2. unicode 、utf-8 、二进制三者之间的区别

unicode只是一个符号集,它只规定了符号的二进制代码,没有规定这个二进制代码如何存储。
unicode编码系统是为表达任意语言而设计的,为了防止存储上的冗余(比如,对应ascii码的部分),其采用了变长编码,但变长编码给解码带来了困难,无法判断是几个字节表示一个字符

一句话:
unicode只是一个符号集,只规定了符号的二进制代码;
而utf-8是针对unicode变长编码设计的一种前缀码,可以理解为是一种unicode的存储机制,是unicode的一种实现方式之一。

3. python中的编码和解码
以python2为例
解码:str.decode('utf-8') ,将字节流按照给定的解码方式utf8解码,并转换为unicode。
编码:u.encode('utf-8'),将unicode字符按照给定的编码方式转化为字节流str。

参考(区分先后):

  1. https://www.cnblogs.com/shine-lee/p/4504559.html
  2. http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
上一篇下一篇

猜你喜欢

热点阅读