python使用requests爬取网页时，中文乱码

2019-03-02 本文已影响0人小鬼客

使用requests 在爬去一个网站数据时，对于中文出现乱码的情况，解决的方式：
首先：
出现乱码的原因，就是IDE的编码方式和网页的编码方式不一致
其次：
如何确定网站的编码方式呢？

import chardet
print(chardet.detect(html.content))

结果：
{'encoding': 'GB2312', 'language': 'Chinese', 'confidence': 0.99}
编码格式为： GB2312

最后：
解决方式：

1.
html.content.decode('gbk')
# 将内容解码用gbk

2.requests爬虫时，建议使用此种方式，如果遇到乱码问题🐷
html.encoding = 'gbk'
print(html.text)
# 指定html.text的编码方式