scrapyd
1.安装
scrapyd 支持以HTTP命令方式通过json API进行发布、删除、启动、停止爬虫,而且可以同时管理多个爬虫,每个爬虫还可以有多个版本。
两种常用安装方式:
pip install scrapyd;
从https://github.com/scrapy/scrapyd下载源码,运行pip setup.py install命令安装。
scrapyd-client 专门用来发布scrapy爬虫的工具,安装后会自动在python安装目录下scripts文件夹生成scrapyd-deploy工具,类似于python脚本,可以直接使用python scrapyd-deploy运行。
安装方式同上。
2.部署
命令行输入scrapy即可完成启动, 默认情况下scrapyd运行后会监听6800端口。
打开浏览器输入:http://127.0.0.1:6800/,即可打开scrapd界面。
修改项目根目录文件夹下scrapy.cfg配置文件
1.取消项目url前的注释
2.修改deploy为deploy:100 ,表示把爬虫发布到名为100的爬虫服务器
修改如下:
[settings]
default = zhihu.settings
[deploy:100]
url =http://localhost:6800/
project =zhihu
3.命令
配置完成可以用scrapyd-deploy发布爬虫,命令如下:
scrapyd-deploy <target> -p <project> --version <version>
如:python scrapyd-deploy 100 -p zhihu --version ver2019011
target : deploy后面的名称(100)。
project: 自行定义,与爬虫项目名无关。
version:自定义版本号,不写则默认当前时间戳。