scrapyd的使用

2018-12-07  本文已影响36人  阿猫阿狗py
  1. scrapy爬虫项目,服务器上安装
    pip install scrapyd
  2. 开发的程序所在的电脑
    pip install scrapyd-client

如果是部署、开发在同一台电脑上
pip install scrapyd scrapyd-client

  1. 在python环境中的Script新建文本文件scrapyd-deploy.bat
    文件内容:
@echo off
#找到python文件 执行文件命令
"F:\env\Scripts\python.exe" "F:\env\Scripts\scrapyd-deploy" %*
  1. 打开命令窗口,运行命令
    scrapyd-deploy
# 出现提示信息,则成功
Error: no Scrapy project found in this location

5.新建一个文件目录,存放项目。
进入到目录下,启动scrapyd服务器:scrapyd
6.在scrapy.cfg中更改数据。

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]
default = haibao.settings

[deploy:haibao]
url = http://localhost:6800/
project = haibao

7.部署爬虫到服务器(cd到项目目录下,运行命令)
scrapyd-deploy 服务器项目名称 -p 本地项目名称

scrapyd-deploy haibao -p haibao
  1. 使用curl命令查看项目情况。如果失败安装下载工具包。
    http://curl.haxx.se/download.html
  2. 查看命令

远程启动爬虫项目
curl http://localhost:6800/scheduler.json-d project=myproject -d spider=myspider

远程停止/删除爬虫项目-工作计划job
curlhttp://localhost:6800/cancel.json -d project=<PROJECT_NAME> -d job=<JOB_ID>

查看服务器负载状态
curl http://localhost:6800/daemonstatus.json

查看服务器中所有的项目信息
curl http://localhost:6800/listprojects.json

查看某个特定项目的爬虫列表信息
curl http://localhost:6800/listspiders.json?project=myproject

查看指定项目的任务列表
curl http://localhost:6800/listjobs.json

删除某个项目在服务器上的某个版本curl http://localhost:6800/delversion.json -d project=myproject -d version=1543545055

删除项目在服务器上所有版本
curl http://localhost:6800/delproject.json -d project=myproject

2. gerapy分布式爬虫管理工具[开发爬虫程序的电脑上使用的]

安装:

pip install pymongo【依赖模块】

pip install gerapy

初始化:进入需要配置部署管理项目的文件夹

gerapy init

gerapy migrate

启动管理平台

gerapy runserver

打开浏览器:访问管理平台界面

http://localhost:8000

上一篇 下一篇

猜你喜欢

热点阅读