python抓取简单爬虫01

2017-05-15  本文已影响0人  田旭1

python抓取简单爬虫时,如果抓取的网页爬虫数据里面,有不能够utf-8编码的(例如html里面的简体中文),

data=data.decode('UTF-8')

print(data)

报错'gbk' codec can't encode character '\xXX' in position XX

解决办法:修改为

data=data.decode('GBK','ignore')

print(data)

学习文档:http://python.jobbole.com/77821/      http://www.cnblogs.com/sysu-blackbear/p/3629770.html    http://www.cnblogs.com/abelsu/p/5105542.html

官方文档:https://docs.python.org/3/library/urllib.html

上一篇下一篇

猜你喜欢

热点阅读