python3.6使用scrapyd与gerapy管理爬虫
2019-11-26 本文已影响0人
Py_Explorer
正常的管控scrapy框架的爬虫是很简单的,当爬虫很少的时候是很好处理的,但是当爬虫量级达到上百个甚至更多的时候,一个一个的处理就很麻烦了,所以才有了scrapyd和gerapy。
环境:win10,python3.6, scrapy-1.7.4
1. 安装scrapyd与gerapy
python3 -m pip install scrapyd
python3 -m pip install scrapyd-client
python3 -m pip install gerapy
安装完成之后,在python36的Script目录下出现(如下图)

2. 运行scrapyd
在命令提示符[cmd]直接输入scrapyd,如果和python2有冲突,可直接切换到到python3的Scripts目录中运行scrapyd.exe

然后浏览器访问 http://127.0.0.1:6800即可

3. 管理scrapy
-
在scrapy项目的根目录找到scrapy.cfg(我用我的Appcrawler为例)
image.png
-
-
修改scrapy.cfg
image.png
修改完成之后开始管理scrapy爬虫
-
-
scrapy爬虫管理
第一步:cmd进入项目的根目录
检测爬虫个数
image.png
上传项目
stauts为上传状态:ok or error
project为项目名称
spiders为爬虫个数
image.png
手动启动爬虫
image.png
正常启动爬虫之后在web界面中
image.png
说明爬虫启动正常。如果没有说明有错误,查看scrapyd按报的错误修改即可。
-
4. gerapy管理爬虫
-
第一步
启动gerapy
在命令提示符中输入gerapy runsever即可
在web端输入http://127.0.0.1:8000进入
image.png
-
第二步连接scrapyd
image.png
第一:点击client--->create
第二:name随便填写,IP:为scrapyd的IP为127.0.0.1,PORT:端口为scrapyd的端口为6800
第三:点击创建即可。会弹出save successfully。
-
第三步 管理爬虫
点击client即可看到管理界面
image.png
点击调度,即可随意开启爬虫
image.png
以上就是简单的配置。
scapyd也可与spiderkeeper对接
spiderkeeper有定时启动爬虫,有数据库功能比gerapy更为强大,有空再写scrapyd与spiderkeeper和在linux部署管理平台。
帮助到你的留个小心心。