Scrapy 框架的运行流程（十六）

2019-07-30 本文已影响0人梦捷者

一、运行流程

1、数据流

下图显示了Scrapy框架的体系结构及其组件，以及系统内部发生的数据流（由红色的箭头显示）
Scrapy中的数据流由执行引擎控制,流程如下：
（1）首先从爬虫获取初始的请求
（2）将请求放入调度模块，然后获取下一个需要爬取的请求
（3）调度模块返回下一个需要爬取的请求给引擎
（4）引擎将请求发送给下载器，依次穿过所有的下载中间件
（5）一旦页面下载完成，下载器会返回一个响应包含了页面数据，然后再依次穿过所有的下载中间件。
（6）引擎从下载器接收到响应，然后发送给爬虫进行解析，依次穿过所有的爬虫中间件
（7）爬虫处理接收到的响应，然后解析出item和生成新的请求，并发送给引擎
（8）引擎将已经处理好的item发送给管道组件，将生成好的新的请求发送给调度模块，并请求下一个请求
以上过程重复，直到调度程序不再有请求为止。

2、组件介绍

Scrapy引擎
引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件。
调度程序
调度程序接收来自引擎的请求，将它们排入队列，以便稍后引擎请求它们。
下载器
下载程序负责获取web页面并将它们提供给引擎，引擎再将它们提供给spider。
爬虫
爬虫是由用户编写的自定义的类，用于解析响应，从中提取数据，或其他要抓取的请求。
item管道
管道负责在数据被爬虫提取后进行后续处理。典型的任务包括清理，验证和持久性（如将数据存储在数据库中）框架。它使用非阻塞（也成为异步）代码实现并发。

3、中间件

（1）下载中间件

下载中间件是位于引擎和下载器之间的特定的钩子，它们处理从引擎传递到下载器的请求，以及下载器传递到引擎的响应。
如果你要执行以下操作之一，请使用Downloader中间件：
1、在请求发送到下载程序之前处理请求（即在scrapy将请求发送到网站之前）
2、在响应发送给爬虫之前
3、直接发送新的请求，而不是将收到的响应传递给蜘蛛
4、将响应传递给爬行器而不获取web页面;
5、默默的放弃一些请求

（2）爬虫中间件

爬虫中间件是位于引擎和爬虫之间的特定的钩子，能够处理传入的响应和传递出去的item和请求。
如果你需要以下操作请使用爬虫中间件：
1、处理爬虫回调之后的请求或item
2、处理start_requests
3、处理爬虫异常
4、根据响应内容调用errback而不是回调请求

（3）事件驱动的网络
scrapy 是用Twisted编写的，Twisted是一个流行的事件驱动的Python网络框架。它使用非阻塞（也称为异步）代码实现并发。

上一篇下一篇

猜你喜欢

热点阅读