Scrapy工作流程

2018-08-17  本文已影响0人  梦醒家先生

scrapy是工作流程

1.1 一般的爬虫流程

一般爬虫流程.png

1.2 上面的流程可以改写为

image.png

1.3 scrapy的流程

image.png

其流程可以描述如下:

  1. 调度器把requests-->引擎-->下载中间件--->下载器
  2. 下载器发送请求,获取响应---->下载中间件---->引擎--->爬虫中间件--->爬虫
  3. 爬虫提取url地址,组装成request对象---->爬虫中间件--->引擎--->调度器
  4. 爬虫提取数据--->引擎--->管道
  5. 管道进行数据的处理和保存

注意:

1.4 scrapy中每个模块的具体作用

image.png

scrapy 流程总结

创建项目

scrapy startproject 项目名

创建爬虫

scrapy genspider 爬虫名 允许域

编写模型对象

编写字段

编写爬虫代码

  1. 修改 start_urls 开始请求路径

  2. 实现 parse 解析方法提取数据
    xpath 提取出来的是 列表 列表中包含很多 selector
    使用 selector 对象 extract 方法或者 extract_first 方法 提取数据

  3. 使用 yield 提交数据给引擎
    构建 模型对象
    给模型对象赋值
    yield 模型对象

编写管道代码

  1. 创建管道类
  2. 实现管道方法
    process_item
    open_spider
    close_spider
  3. 配置启动管道

运行爬虫

scrapy crawl 爬虫名
上一篇 下一篇

猜你喜欢

热点阅读