Python分布式爬虫-必须掌握的Docker基础!

2019-08-01  本文已影响0人  JAVAandPython君

      没看第一篇文章的朋友,点这里Python爬虫|不会分布式爬虫?带你一步一步写!

      大家都知道在性能方面,Linux系统是远远优于Windows系统的,所以我们整个分布式爬虫的部署也是在Linux的子系统centos上,所以大家都要有一定的Linux基础。

      因为我们使用到Docker技术,所以第一步就是要在我们的服务器上安装上Docker:

安装Docker的指令:

yum-y install docker

        大家静静等待一下就可以安装成功了

       安装成功之后,我给大家简单介绍一下Docker的相关基础,主要有Docker的启动、Docker镜像搜索、Docker镜像下载、Docker容器的创建、Docker容器的查看、Docker容器的命名、Docker容器的启动这几个方面。

      对于我们只需要写分布式爬虫,学习这几个基础就差不多了,总体来说并不困难,也就那几句Linux命令。

Docker的启动和停止

Docker的启动:

systemctl  start docker

Docker的停止:

systemctl  stop docker

我们可以通过docker -v来验证我们是否启用成功

Docker的镜像搜索和下载

 首先,我来给大家简单介绍镜像这个东西,镜像其实有点类似于压缩包,它也是把多个文件压缩到另一个文件当中,只不过后缀名不是我们熟知的zip,rar。很多人可能听说过windows镜像,其实就是一个意思。

       我们使用Docker技术来进行虚拟化容器,我们就得向每个容器里面安装镜像,例如可以安装Ubuntu镜像,Linux镜像,centos镜像等等。镜像我们是不能去改变它本身的内容,但是我们能向容器中安装不同的镜像。

      Docker的虚拟化容器技术就会给我们带来轻部署、省成本、部署迁移方便的各种优势。

      简单介绍了一下镜像,接下来我们正式来学一学镜像搜索

镜像搜索:

docker  search 关键字

这里说明一下这个关键字,比如我们想搜索python有关的镜像,我们就可以

docker search python

如果我们想搜索ubantu有关的镜像,我们就可以:

docker search ubantu

搜索之后,我们就会看到有很多的搜索结果出来了

我们要怎么去下载这些镜像呢?

docker pull NAME

这个NAME就是在我们搜索之后可以看见的,例如我想下载第一个ubantu:

docker pull docker.io/ubuntu

我们整个教程也是下载的第一个Ubuntu。

下载完之后,我们如何查看我们已经下载好的镜像?

docker images

上图就可以看到我们已经下载的Ubuntu镜像,里面的TAG表示的是我们下载的版本。

Docker容器的创建和查看

我们把镜像下载好了,接下来就可以用镜像来装我们的容器

docker run -tid3556

这里的“3556”就是我们Ubuntu的IMAGE ID的前4位,我们直接通过前4位就可识别到是这个镜像。

创建完容器,我们怎么去查看它?

docker ps -a

Docker进入容器及不停止退出

创建完容器,我们可以进去玩一玩,怎么进呢?

docker attach container id

啥意思呢?大家可以看到上图,里面有一个container id列,我们直接选取其前四位,例如我现在要进入Ubuntu的容器:

docker attach cea2

可以看到我们成功的进入到cea2的容器中,这就相当于另外一台服务器。

当我们进入之后,我们肯定是需要退出的,但是我们这个容器中可能是有爬虫在运行的,那么我们该如何不停止这个容器运行又完美退出呢?我们可以同时按ctrl+P+Q 三个按键来进行不停止退出。

Docker容器的命名

从上图中可以看到最右边,我们容器也是有名字的,但是系统是随机生成的,我们怎样去创建一个自己设定名字的容器?

docke rrun -tid --name javaandpython 3556

运行之后就是上面的效果!

Docker的启动停止的容器

当我们想去启动一个停止的容器时,要怎样操作?

docker start id

这里的id同样是取前四位字母,我这里就不演示了。

根据已有的容器封装成镜像

当我们创建一个容器时,我们会在容器内搭建好整个爬虫运行的环境,但是我们需要创建很多这种容器(子节点),我们不可能每个容器都去搭建一遍,所以接下来教大家如何把我们已经搭建好的环境进行封装成镜像,然后直接使用该镜像去创建容器即可。

docker commit 471c mytest:v1

这里做个简单的解释,471c是已有容器的id,mytest是我们封装成镜像的名称,冒号后面的v1则是镜像的版本名。

显示这个就表明创建成功,我们再去查看一下镜像列表

可以看到列表中多了一个mytest,也就是我们封装的镜像。

Docker网络配置基础

之前给大家介绍过我们整个分布式的难点就是容器之间的通信,上面所写的知识可以帮助我们去创建容器,但是每个容器都是一个独立的个体,我们怎样去使其相互连通呢?

我们首先创建一个子节点容器,名字命名为h1

docker run -tid --name h1 mytest:v1

然后我们再创建一个容器,让这个容器和h1进行通信:

docker run -tid --name h2 --link h1 5953

我们该如何知道他们之间就相互通信了呢?

大家可以看图,我们首先进入h2的容器中,然后输入 cat /etc/hosts

可以看到有 172.18.0.4 是h1的ip地址,我们可以通过ping这个网址来判断是否真正通信成功

可以看到我们通信是成功的!

写了很多,大家一次性可能不能完全消化,但是大家最好收藏起来,忘记哪个命令的时候可以进行查看,如果文章里面有错误,可以私聊我,我会及时改正。

分布式爬虫是一个系列的文章,大家持续关注!

欢迎大家关注笔者的微信公众号:JAVAandPython君

上一篇下一篇

猜你喜欢

热点阅读