python使用requests爬取网页时,中文乱码
2019-03-02 本文已影响0人
小鬼客
使用requests 在爬去一个网站数据时,对于中文出现乱码的情况,解决的方式:
首先:
出现乱码的原因,就是IDE的编码方式和网页的编码方式不一致
其次:
如何确定网站的编码方式呢?
- F12,直接查看网页的head下<meta >中的charset属性,
- 使用python的chardet库,
import chardet
print(chardet.detect(html.content))
结果:
{'encoding': 'GB2312', 'language': 'Chinese', 'confidence': 0.99}
编码格式为: GB2312
最后:
解决方式:
1.
html.content.decode('gbk')
# 将内容解码用gbk
2.requests爬虫时,建议使用此种方式,如果遇到乱码问题🐷
html.encoding = 'gbk'
print(html.text)
# 指定html.text的编码方式