大数据 爬虫Python AI Sql玩耍PythonPythoner集中营

Scrapy-02(系列篇4)-爬虫&云服务器定时调度(

2018-11-18  本文已影响19人  丨像我这样的人丨

项目过程

1.云服务器配置
2.Scrapy爬虫撸代码
3.ProxyPool动态IP代理池
4.云服务器调度

工具


4.云服务器配置调度

前3步都完成后 进行最后一步服务器配置调度 激动人心!
配置文件scrapy.cfg

切换到命令行模型 切到相应文件目录
scrapyd-deploy AliCloud -p 爬虫项目名
记得安全组开放6800端口
就可以在网页看到爬虫已上传成功

运行调度爬虫curl命令
可在网页Jobs中查看到相应日志 和本地控制台输出的log一模一样

curl http://XXX.XXX.XXX.XXX:6800/schedule.json -d project=爬虫项目名
-d spider=爬虫Spider名
win下没有curl命令 详细见百度经验Windows下安装使用curl命令
最后一步 就是定时调度crontab
具体怎么用 还是自行百度
xshell连接服务器 输入如下样式命令
crontab -e
保存:wq退出
这里的意思是每天2点、11点、20点各执行一次
然后就可以喝着快乐肥宅水 享受云端自动调度的快感

到此爬虫&云服务器定时调度(以京东零食为例)项目结束
整个过程涉及到的细(坑)节 特别多 特别碎
值得好好消化
授人以鱼不如授人以渔

上一篇 下一篇

猜你喜欢

热点阅读