python使用requests爬取网页时,中文乱码

2019-03-02  本文已影响0人  小鬼客

使用requests 在爬去一个网站数据时,对于中文出现乱码的情况,解决的方式:
首先:
出现乱码的原因,就是IDE的编码方式和网页的编码方式不一致
其次:
如何确定网站的编码方式呢?

  1. F12,直接查看网页的head下<meta >中的charset属性,
  2. 使用python的chardet库,
import chardet
print(chardet.detect(html.content))

结果:
{'encoding': 'GB2312', 'language': 'Chinese', 'confidence': 0.99}
编码格式为: GB2312

最后:
解决方式:

1.
html.content.decode('gbk')
# 将内容解码用gbk
2.requests爬虫时,建议使用此种方式,如果遇到乱码问题🐷
html.encoding = 'gbk'
print(html.text)
# 指定html.text的编码方式
上一篇下一篇

猜你喜欢

热点阅读