「爬虫」02urllib库和超时设置

2020-01-06 本文已影响0人林拂晓

1.urllib库

（1）urlretrieve()：一次性把某网页直接爬到本地。

urlretrieve()

（2）urlcleanup()：清除缓存。

urlcleanup()

（3）info()：展现所爬网页的基本环境信息。

info()

（4）getcode()：获取所爬网页的状态码。

getcode()

【注】200表示正常。

2.超时设置

超时设置

3.实践操作：爬取豆瓣提供者的出版商名字

网址：http://read.douban.com/provider/all

爬取豆瓣提供者的出版商名字