爬虫断点爬取

2019-01-07  本文已影响0人  牛耀

一个把调度请求保存在磁盘的调度器
一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
一个能持续保持爬虫状态(键/值对)的扩展

要启用持久化支持,你只需要通过 JOBDIR 设置 job directory 选项。
这个路径将会存储 所有的请求数据来保持一个单独任务的状态(例如:一次
spider爬取(a spider run))。必须要注意的是,这个目录不允许被不同的
spider 共享,甚至是同一个spider的不同jobs/runs也不行。也就是说,
这个目录就是存储一个 单独 job的状态信息。

scrapy crawl 爬虫名称 -s JOBDIR=crawls/爬虫名称

scrapy crawl 爬虫名称 -s JOBDIR=crawls/爬虫名称

spider.status : 爬虫运行的状态
requests.queue : 保存的请求的任务队列
requests.seen : 保存的是指纹

上一篇 下一篇

猜你喜欢

热点阅读