编程之美-PyhonPythonScrapy

Gerapy-->分布式爬虫管理工具 超好看^~^

2018-11-30  本文已影响192人  也是如此

不足之处,望指教

老规矩,官方级别的解释说明(ta好,ta好,ta什么都好):

Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:
更方便地控制爬虫运行
更直观地查看爬虫状态
更实时地查看爬取结果
更简单地实现项目部署
更统一地实现主机管理

安装吧

Gerapy 的安装不仅仅是pip install gerapy那么简单,gerapy依赖于pymongo
所以

pip install pymongo
pip install gerapy

正式开始

1.新建文件夹

管理自己的爬虫项目(以下简称爬虫文件夹)

2.进行初始化

进入爬虫文件夹,进入命令行,输入下面的代码,会在文件夹中生成一个projects的文件夹

gerapy init
gerapy migrate

3.启动管理平台(是不是和Django很像)

gerapy runserver

4.打开浏览器,访问管理平台

http://localhost:8000

5.项目管理

将自己的爬虫项目放进爬虫文件夹下的projects文件夹中,在管理平台刷新,项目中的爬虫文件就会在平台上显示
注意!尽量不要将多余的无用的文件夹放入,以免造成后面的打包错误

6.主机管理

gerapy使用8000端口,新建主机时需填写如下信息,如需加密码,请点击认证,不过密码不要忘记了噢。


image.png

主机操作


image.png

7.项目管理

将自己的项目放入爬虫文件夹的projects文件夹后,在管理平台刷新即可看到自己的爬虫项目,必须打包以后才能运行,然后点击部署,即可打包,在打包项目输入描述,点击打包即可。

image.png

8.部署运行项目

项目管理中部署成功后,在主机管理中的调度可以看到当前爬虫的运行状态,可以同时运行多个爬虫程序。

!TODO

上一篇 下一篇

猜你喜欢

热点阅读