Scrapyd使用教程

2020-07-08 本文已影响0人轻语风

Scrapyd是一个服务，用来运行scrapy爬虫的
它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫
官方文档：http://scrapyd.readthedocs.org/

安装

pip install scrapyd

安装完成后会在本地anaconda安装目录中的Scripts下生成scrapyd.exe
打开命令行，输入scrapyd，如下图：

image.png

理解scrapyd

crapyd其实就是一个服务器端，真正在部署爬虫的时候，我们需要两个东西：

scrapyd (安装在服务器端)
scrapy-client (客户端)
scrapy-client，它允许我们将本地的scrapy项目打包发送到scrapyd 这个服务端
安装 scrapy-client：

pip install scrapyd-client

部署scrapy项目

在scrapy项目目录下，有一个scrapy.cfg的配置文件：

image.png

demo：命名（可随意）
project：工程名
在本地anaconda安装目录中的Scripts下查看有没有scrapyd-deploy文件，然后在同名目录下创建文本文件命名为scrapyd-deploy.bat

@echo off

"F:\Python\anaconda\abc\python.exe"       #anaconda安装目录下的python环境
"F:\Python\anaconda\abc\Scripts\scrapyd-deploy" %*     #anaconda安装目录下Scripts下scrapyd-deploy所在目录

进入爬虫根目录，运行以下命令

scrapyd-deploy

image.png
出现以上提示命令则运行成功
注意：一定要进入爬虫根目录，就是带有scrapy.cfg的那一层及目录。
接着运行以下命令：

scrapyd-deploy demo -p china          #demo为自己命名的，同上
                                     #china为项目名称

结果如下图

image.png

到这一步，只是把爬虫项目上传到服务端，并没有启动，
接下来看看如何启动：
先运行命令查看服务端状态：

curl http://localhost:6800/daemonstatus.json

图片.png

返回的信息告诉我们：都为0
再执行启动命令：

curl http://localhost:6800/schedule.json -d project=china -d spider=china
#project=工程名
#spider=项目名称

然后查看网页127.0.0.1:6800

图片.png

点击Jobs

图片.png
这边就是我们爬虫运行的状态以及日志。

Scrapyd使用教程

安装

理解scrapyd

部署scrapy项目

猜你喜欢

热点阅读