scrapy框架流程简述
2018-01-17 本文已影响0人
卢子野
示例图
文字描述
- 爬虫程序将start_urls,封装成request交给引擎模块。
- 引擎模块拿到request对象之后交给调度模块进行调度处理。
- 调度完成交还给引擎模块。
- 引擎模块将调度完成后处理好的地址列表交给下载模块,进行实际数据的采集。
- 下载模块从网上获取数据。
- 返回引擎模块,数据采集完成。
- 数据交还给爬虫程序,提取需要的数据。
- 数据验证处理完成。
- 将数据交给管道模块。
- 将数据存档到数据库。
PS:
在整个框架中,需要开发的只有标记红五星的模块,数据模块用来定义数据,存在于爬虫程序中,7进来以后要封装成item,然后进入8。