python 学习笔记程序员我是程序员;您好程先生;叫我序员就好了

scrapy进阶开发(二):暂停与重启

2018-03-01  本文已影响43人  9c0ddf06559c
# 进入虚拟环境
workon ${YOUR_VIRTUAL_ENV}
# 进入爬虫目录
cd ${YOUR_SPIDER_HOME}
# 爬虫启动命令
srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}
# 暂停 ctrl+c
# 重启 srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}
# spider项目里自定义配置
custom_settings={
    JOBDIR : ${STATE_SAVE_PATH}
}
...
# 命令行正常启动
srapy crawl spider lagou 
...
文件名 类型 用处
request.seen 文件 已经访问过的url
spider.state 文件 spider的状态信息
requests.queue 文件夹 request队列
requests.queue/p0 文件 需要继续做完的request
上一篇下一篇

猜你喜欢

热点阅读