关于pyhton2.x中编码问题的一点小理解

2017-10-30 本文已影响100人沙子硅

欢迎访问个人博客：blog.spursgo.com

关于pyhton2.x中编码问题的一点小理解

大约在一年前，当时接触pyhton爬虫时（那时还是在Windows上开发学习），由于网页中存在大量中文，自然不可避免的会涉及到编码问题。刚刚入门就遇到了python中的一个大麻烦：编码问题，查了一些资料把手上的问题解决之后，就没有去管编码问题了。

一年后，仍然习惯于python2.x。本来在macOS和ubuntu上写得很顺利得一个爬虫程序，转到windows 10上居然出现了大量的乱码。

len.png

从图片中，我们可以可以清楚的看到，一个‘人’字，由于它的类型不一样，当我们取长度时，得到的结果不一样。
现在是不是对字节和字符有了更好的认识了呢？

3. 编码格式的互相转换

decode ：解码，实现其他编码格式到unicode的转换
encode ：编码，实现unicode到的转换其他编码格式

常见的其他编码格式：utf-8,gbk,gb2312

这是有一个问题我们一定要重视：decode既然是其他编码格式到unicode的转换，达到解码的目的，也就是说unicode本身不是一种编码格式。因此，我们在进行编码与解码的时候，我们要弄清楚，这个被操作的对象是谁？否则，出现编码问题的几率会大大增加。

4. unicode的深刻理解

unicode实际上是一种字符集，神奇之处在于所有语言的字符都用这一种字符集来表示，它是全人类都承认的一种统一标准。unicode映射了各种字符应该用哪种方式来表示，而没有指明具体的传输和储存方式，这个工作是由utf来完成的，如utf-8,utf-16。

5. 编码解码前后的差别

一个str类型的字节串解码后就成了unicode的字符串，相反，一个unicode类型的字符串解码后就成了str的字节串。
以下是我的实验代码：

#coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

country = '中国'
print type(country)
print country
country = country.decode('utf-8')
print type(country)
print country
country = country.encode('gbk')
print type(country)
print country

下面是执行结果：

class.png

实验结果很好的验证了刚刚的结论。

6. 建议

6.1 更改文本编码格式

#coding:utf-8

6.2 更改程序默认编码格式

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

6.3 尽可能的采用unicode作为过渡，输出时编码为需要的编码格式

文/浅斟低唱

关于pyhton2.x中编码问题的一点小理解

关于pyhton2.x中编码问题的一点小理解

3. 编码格式的互相转换

4. unicode的深刻理解

5. 编码解码前后的差别

6. 建议

6.1 更改文本编码格式

6.2 更改程序默认编码格式

6.3 尽可能的采用unicode作为过渡，输出时编码为需要的编码格式

猜你喜欢

热点阅读