python3.6使用scrapyd与gerapy管理爬虫

2019-11-26 本文已影响0人 Py_Explorer

正常的管控scrapy框架的爬虫是很简单的，当爬虫很少的时候是很好处理的，但是当爬虫量级达到上百个甚至更多的时候，一个一个的处理就很麻烦了，所以才有了scrapyd和gerapy。
环境：win10，python3.6， scrapy-1.7.4

1. 安装scrapyd与gerapy

python3 -m pip install scrapyd
python3 -m pip install scrapyd-client
python3 -m pip install gerapy

安装完成之后，在python36的Script目录下出现(如下图)

image.png

2. 运行scrapyd

在命令提示符[cmd]直接输入scrapyd，如果和python2有冲突，可直接切换到到python3的Scripts目录中运行scrapyd.exe

image.png

然后浏览器访问 http://127.0.0.1:6800即可

image.png

3. 管理scrapy

1. 在scrapy项目的根目录找到scrapy.cfg（我用我的Appcrawler为例）
  
  image.png
1. 修改scrapy.cfg
  
  image.png
  
  修改完成之后开始管理scrapy爬虫
1. scrapy爬虫管理
  第一步：cmd进入项目的根目录
  检测爬虫个数
  
  image.png
  
  上传项目
  stauts为上传状态：ok or error
  project为项目名称
  spiders为爬虫个数
  
  image.png
  手动启动爬虫
  image.png
  正常启动爬虫之后在web界面中
  image.png
  
  说明爬虫启动正常。如果没有说明有错误，查看scrapyd按报的错误修改即可。

4. gerapy管理爬虫

第一步
启动gerapy
在命令提示符中输入gerapy runsever即可
在web端输入http://127.0.0.1:8000进入

image.png
第二步连接scrapyd

image.png

第一：点击client--->create
第二：name随便填写，IP：为scrapyd的IP为127.0.0.1，PORT：端口为scrapyd的端口为6800
第三：点击创建即可。会弹出save successfully。

第三步管理爬虫
点击client即可看到管理界面

image.png

点击调度，即可随意开启爬虫

image.png
以上就是简单的配置。
scapyd也可与spiderkeeper对接
spiderkeeper有定时启动爬虫，有数据库功能比gerapy更为强大，有空再写scrapyd与spiderkeeper和在linux部署管理平台。

帮助到你的留个小心心。

上一篇下一篇

猜你喜欢

热点阅读