python

python爬虫后乱码

2019-11-18  本文已影响0人  迷糊银儿

爬虫后乱码的原因:基本上是源码的编码方式与我们爬取下来后存储的编码方式不一致。

爬取的所有网页无论何种编码格式,都转化为utf-8格式进行存储,与源代码编码格式不同所以出现乱码


image.png
def get_biqukan():
    url='https://www.biqukan.com/0_243/530251298.html'
    rep=requests.get(url)
    print("保存后的编码:",rep.encoding)
    print("猜测的源码的编码方式",rep.apparent_encoding)  # 猜测的源码的编码方式
    rep.encoding = "gbk"
    print(rep.text)
上一篇 下一篇

猜你喜欢

热点阅读