python 爬虫遇到的内容乱码问题

2020-12-21  本文已影响0人  王镇_ee87

今天闲的无聊,找个小说看看,但是在爬的过程中出现乱码,如下图


image

猜想是编码问题,打印当前的编码

req = session.get(url)
print(req.encoding)

结果是

ISO-8859-1

询问大佬,得以解决

req.encoding = req.apparent_encoding
print(req.encoding)

结果是GB2312
问题解决

image

但是这个自动取编码很影响效率还是别用了 直接指定较好

req.encoding = 'GB2312'

以后想知道 编码是啥 去源码里 搜 charset 字段
或者

print(ret.apparent_encoding)

然后在指定一下就好了

上一篇下一篇

猜你喜欢

热点阅读