Spbeen——Python技术栈生活不易我用python

Scrapy简单笔记（三）

2017-03-21 本文已影响51人布拉豆

Scrapy功能介绍

示例的scrapy项目非常的简单，熟练爬虫的程序员可以一个脚本搞定以上全部内容，但scrapy并不是一个简单的打开、分析、下载操作集合

它有非常强大的拓展功能，可以非常方便的定制爬虫的一些特性
将调度器、下载、分析、数据清理等操作分割，管理和拓展都非常的方便

1、下载项目图片

Scrapy提供了一个 item pipeline ，来下载属于某个特定项目的图片，比如，当你抓取产品时，也想把它们的图片下载到本地。

这条管道，被称作图片管道，在 ImagesPipeline 类中实现，提供了一个方便并具有额外特性的方法，来下载并本地存储图片:

将所有下载的图片转换成通用的格式（JPG）和模式（RGB）
避免重新下载最近已经下载过的图片
缩略图生成
检测图像的宽/高，确保它们满足最小限制

2、自动限速扩展

该扩展能根据Scrapy服务器及您爬取的网站的负载自动限制爬取速度。

设计目标

更友好的对待网站，而不使用默认的下载延迟0。
自动调整scrapy来优化下载速度，使得用户不用调节下载延迟及并发请求数来找到优化的值。用户只需指定允许的最大并发请求数，剩下的都交给扩展来完成。

3、Jobs：暂停，恢复爬虫

有些情况下，例如爬取大的站点，我们希望能暂停爬取，之后再恢复运行。

Scrapy通过如下工具支持这个功能:

一个把调度请求保存在磁盘的调度器
一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
一个能持续保持爬虫状态(键/
![Uploading 调查二维码图标_202904.PNG . . .]
值对)的扩展

有问题可以进群QQ：569340548

参与问卷调查，有机会送书哟~

链接：`https://sojump.com/jq/12779681.aspx`

调查问卷二维码：

二维码

Scrapy课程链接：http://study.163.com/course/courseMain.htm?courseId=1003666043

Python教程、教程--传送门

上一篇下一篇

猜你喜欢

热点阅读