「爬虫」02urllib库和超时设置
2020-01-06 本文已影响0人
林拂晓
1.urllib库
(1)urlretrieve():一次性把某网页直接爬到本地。
![](https://img.haomeiwen.com/i1969457/8343222436ec491e.png)
(2)urlcleanup():清除缓存。
![](https://img.haomeiwen.com/i1969457/956048dc7a781aa1.png)
(3)info():展现所爬网页的基本环境信息。
![](https://img.haomeiwen.com/i1969457/f573c6aada270dfb.png)
(4)getcode():获取所爬网页的状态码。
![](https://img.haomeiwen.com/i1969457/29423d20267ad6ba.png)
【注】200表示正常。
2.超时设置
![](https://img.haomeiwen.com/i1969457/a8d1b63c726d9bfa.png)
3.实践操作:爬取豆瓣提供者的出版商名字
网址:http://read.douban.com/provider/all
![](https://img.haomeiwen.com/i1969457/2c0d0d94d5869b37.png)