scrapy爬虫部署

2019-01-08 本文已影响0人瘦不下去了

step1安装使用到的相关库

scrapyd
是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本

pip3 install scrapyd

scrapyd-client
发布爬虫需要使用另一个专用工具，就是将代码打包为EGG文件，其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成

pip3 install scrapyd-client

安装完成后可以使用如下命令来检查是否安装成功

scrapyd-deploy -h

step2　修改scrapy项目目录下的scrapy.cfg配置文件

首先需要修改scrapyd.egg (项目的配置文件)

[deploy]
url=http://localhost:6800
project=项目名称

修改完成后即可开始部署共作

本地部署

在此之前，开启scrapyd和redis
项目部署相关命令：注意这里是项目的名称而不是工程的名称

scrapyd-deploy -p 项目名称
也可以指定版本号
scrapyd-deploy -p 项目名称 --version 版本号

注意：
windows下可能会失败，需要对配置进行修改，首先找到你的项目所在的python环境，找到Scripts文件夹，注意要查看这个文件夹是否在你计算机的环境变量里，没有的话需要添加至环境变量。然后进入Scripts文件夹查看有没有scrapy-deploy这么一个文件，本人在调试的时候发现自己缺少这么一个文件，注意，没有后缀名。没有的话可以来这里下载https://pan.baidu.com/s/1ndDhFqDaVGCv58QTueFIzw。然后，新建一个文本txt，输入 00041d4a936ac0ac7047062a5073c7bf.png
保存退出，最后将文件重命名为scrapy-deploy.bat。重新运行代码即可。

运行爬虫

project (string, required) - the project name
spider (string, required) - the spider name

curl http://localhost:6800/schedule.json -d project=myproject(项目名称) -d spider=somespider(爬虫名称)

关闭爬虫

project (string, required) - the project name
job (string, required) - the job id

curl http://localhost:6800/cancel.json -d project=myproject -d job='jobid'

获取部署的爬虫项目列表

curl http://localhost:6800/listprojects.json

获取项目下的爬虫文件列表

curl http://localhost:6800/listspiders.json?project=myproject

获取工程下的爬虫运行状态

curl http://localhost:6800/listjobs.json?project=myproject

删除部署的爬虫项目

project (string, required) - the project name

curl http://localhost:6800/delproject.json -d project=myproject

远端部署

step1.购买linux系统服务器
step2.在终端上登录服务器

5bde7157d0248.png

step3.配置项目运行环境

配置python环境(ubuntu自带python3环境))
安装pip3：sudo apt install python3-pip
安装scrapy：pip3 install scrapy -i https://pypi.douban.com/simple/
- 如果安装失败添加如下依赖：
```
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
```
安装scrapyd: pip3 install scrapyd
安装scrapyd-client: pip3 install scrapyd-client
添加爬虫运行的三方库：
- pip3 install requests
- pip3 install pymysql
- pip3 install pymongodb

step4: 修改scrapyd的配置文件，允许外网访问

查找配置文件的路径：find -name default_scrapyd.
修改配置文件: sudo vim 路径

5bde7c030036d.png

5bde786f3b80d.png

注意:此时启动scrapayd服务6800端口还不能访问

step5:要去服务器安全组配置

进入服务安全组选项添加安全组

5bde7c3b99a88.png
添加成功后，点击修改规则，添加如下信息(配置目的:允许访问6800端口

5bde7c73925b5.png
完成后返回到云主机菜单，找到配置安全组菜单，跟换为刚才添加的安全组

5bde7c990a023.png
最终完成后，在浏览器中输入ip地址和端口,显示如下图，说明配置成功

5bde7ca916f85.png

最后部署爬虫项目到服务器：
首先需要修改scrapyd.egg (项目的配置文件)

[deploy]
url = http://118.24.255.219:6800
project=项目名称

之后的操作步骤与本地部署一致

如果涉及到数据库,则需要在远程服务器中安装mysql

sudo apt update
sudo apt-get install mysql-server mysql-client

修改配置文件允许外网访问

找到mysql配置文件并做如下修改：允许远程连接

sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf
将
bind-address= 127.0.0.1
注释掉或则修改为
bind-address= 0.0.0.0

授权root账户允许远程访问：

grant all privileges on . to root@'%' identified by 'password' with grant option;

注意：如果还是不能远程访问就重启mysql服务

sudo service mysql stop sudo service mysql start

mongodb数据库的安装

安装

sudo apt-get install mongodb

启动

sudo service mongodb start 连接客户端报错参考如下网址：（输入：sudo systemctl enable mongodb） mongo

修改配置文件的路径

sudo vim /etc/mongodb.conf

在远端服务器上安装redis数据库

step1:
- cd ~　（进入指定的目录）
step2:
- 下载redis数据库压缩包： wget http://download.redis.io/releases/redis-4.0.10.tar.gz
step3:
- 解压下载的文件: tar -zxvf redis-4.0.10.tar.gz
step4:
- 复制,放到/usr/local目录下面( 先创建文件夹/usr/local/redis/ )
- mv ./redis-4.0.11/* /usr/local/redis/
step5:进入redis目录
- cd /usr/local/redis/
step6:
- sudo make
- sudo make test
- sudo make install
step7:
- sudo cp /usr/local/redis/redis.conf /etc/redis/
step8:
- 修改配置文件,允许外网访问 sudo vim redis.cnf
- 将配置文件中的bind修改为: bind=0.0.0.0
step9:
- 启动redis服务： sudo redis-server redis.cnf
step10:链接客户端
- redis-cli -h ip -p port

分布式爬虫项目的部署

step1将项目修改为分布式

step1
pip3 install scrapy-redis
step2
修改settings.py设置文件：

#这里表示启用scrapy-redis里的去重组件，不实用scrapy默认的去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#使用了scrapy-redis里面的调度器组件，不使用scrapy默认的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#允许暂停，redis请求的记录不会丢失，不清除Redis队列，可以恢复和暂停
SCHEDULER_PERSIST = True

#下面这些是request的队列模式
#一般情况下使用第一种
#scrapy-redis默认的请求队列形式（有自己的优先级顺序）
#是按照redis的有序集合排序出队列的
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

# scrapy_redis.pipelines.RedisPipeline 必须启用，才能够将数据存储到redis数据库中
ITEM_PIPELINES = {
    'example.pipelines.ExamplePipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

# 指定要存储的redis的主机的ip，默认存储在127.0.0.1

REDIS_HOST = 'redis的主机的ip'

# 定要存储的redis的主机的port，默认6379

REDIS_PORT = '6379'

step3
修改爬虫文件
step4
部署爬虫项目
step5
启动爬虫文件
step6
给爬虫添加起始任务 lpush key value(起始url)

scrapy爬虫部署

step1安装使用到的相关库

step2　修改scrapy项目目录下的scrapy.cfg配置文件

本地部署

远端部署

如果涉及到数据库,则需要在远程服务器中安装mysql

mongodb数据库的安装

在远端服务器上安装redis数据库

分布式爬虫项目的部署

猜你喜欢

热点阅读

scrapy爬虫部署

step1安装使用到的相关库

step2 修改scrapy项目目录下的scrapy.cfg配置文件

本地部署

远端部署

如果涉及到数据库,则需要在远程服务器中安装mysql

mongodb数据库的安装

在远端服务器上安装redis数据库

分布式爬虫项目的部署

猜你喜欢

热点阅读

step2　修改scrapy项目目录下的scrapy.cfg配置文件