Scrapy简单笔记(三)
2017-03-21 本文已影响51人
布拉豆
Scrapy功能介绍
示例的scrapy项目非常的简单,熟练爬虫的程序员可以一个脚本搞定以上全部内容,但scrapy并不是一个简单的打开、分析、下载操作集合
- 它有非常强大的拓展功能,可以非常方便的定制爬虫的一些特性
- 将调度器、下载、分析、数据清理等操作分割,管理和拓展都非常的方便
1、下载项目图片
Scrapy提供了一个 item pipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。
这条管道,被称作图片管道,在 ImagesPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片:
- 将所有下载的图片转换成通用的格式(JPG)和模式(RGB)
- 避免重新下载最近已经下载过的图片
- 缩略图生成
- 检测图像的宽/高,确保它们满足最小限制
2、自动限速扩展
该扩展能根据Scrapy服务器及您爬取的网站的负载自动限制爬取速度。
设计目标
- 更友好的对待网站,而不使用默认的下载延迟0。
- 自动调整scrapy来优化下载速度,使得用户不用调节下载延迟及并发请求数来找到优化的值。 用户只需指定允许的最大并发请求数,剩下的都交给扩展来完成。
3、Jobs:暂停,恢复爬虫
有些情况下,例如爬取大的站点,我们希望能暂停爬取,之后再恢复运行。
Scrapy通过如下工具支持这个功能:
- 一个把调度请求保存在磁盘的调度器
- 一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
- 一个能持续保持爬虫状态(键/
![Uploading 调查二维码图标_202904.PNG . . .]
值对)的扩展
有问题可以进群QQ:569340548
参与问卷调查,有机会送书哟~
链接:https://sojump.com/jq/12779681.aspx
调查问卷二维码:
Scrapy课程链接:http://study.163.com/course/courseMain.htm?courseId=1003666043
Python教程、教程--传送门