scrapyd+gerapy部署分布式爬虫及scrapyd-de

2019-08-20  本文已影响0人  越大大雨天

今天尝试在windows中使用scrapyd+gerapy部署爬虫

首先需要部署scrapyd完成部署

先安装以下两个包:

再编辑scrapy项目根目录下的scrapy.cfg文件如下:

[settings]
default = JD.settings
# :号后自定义部署名
[deploy:JD_book]
# scrapyd运行的服务器地址,此处为本地的6800端口
url = http://localhost:6800/
# 项目名
project = JD

实际使用时需要把#号的注释全部删除。
配置完成后就可以部署爬虫应用了
使用命令:scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称 即可,对应的我的命令为:scrapyd-deploy JD_book -p JD

但此时出现了报错:

'scrapyd-deploy' 不是内部或外部命令,也不是可运行的程序 或批处理文件。

解决办法如下:

在python安装目录的scripts目录中,添加scrapyd-deploy.bat文件,内容包含你的python.exe路径和scripts目录中的scrapyd-deploy路径,我的编辑内容如下:

@echo off
 
"C:\Users\woyue\AppData\Local\Programs\Python\Python36\python.exe" "C:\Users\woyue\AppData\Local\Programs\Python\Python36\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9

如果你也有相同问题,只需将如上中的两个路径替换为你本机中的路径即可解决。
重新运行scrapyd-deploy -h命令检查,发现已经可以顺利运行了。

然后使用gerapy部署

使用gerapy部署更加便于操作和管理,不需要使用curl命令或者requests模块请求API接口来启动或暂停爬虫程序。
部署gerapy方法如下:

image.png image.png
上一篇 下一篇

猜你喜欢

热点阅读