scrapy框架流程简述

2018-01-17  本文已影响0人  卢子野
示例图

文字描述

  1. 爬虫程序将start_urls,封装成request交给引擎模块。
  2. 引擎模块拿到request对象之后交给调度模块进行调度处理。
  3. 调度完成交还给引擎模块。
  4. 引擎模块将调度完成后处理好的地址列表交给下载模块,进行实际数据的采集。
  5. 下载模块从网上获取数据。
  6. 返回引擎模块,数据采集完成。
  7. 数据交还给爬虫程序,提取需要的数据。
  8. 数据验证处理完成。
  9. 将数据交给管道模块。
  10. 将数据存档到数据库。

PS:

在整个框架中,需要开发的只有标记红五星的模块,数据模块用来定义数据,存在于爬虫程序中,7进来以后要封装成item,然后进入8。

上一篇下一篇

猜你喜欢

热点阅读