scrapy框架流程简述

2018-01-17 本文已影响0人卢子野

示例图

文字描述

爬虫程序将start_urls,封装成request交给引擎模块。
引擎模块拿到request对象之后交给调度模块进行调度处理。
调度完成交还给引擎模块。
引擎模块将调度完成后处理好的地址列表交给下载模块，进行实际数据的采集。
下载模块从网上获取数据。
返回引擎模块，数据采集完成。
数据交还给爬虫程序，提取需要的数据。
数据验证处理完成。
将数据交给管道模块。
将数据存档到数据库。

PS:

在整个框架中，需要开发的只有标记红五星的模块，数据模块用来定义数据，存在于爬虫程序中，7进来以后要封装成item，然后进入8。

上一篇下一篇

猜你喜欢

热点阅读