Hadoop框架基础（一）

2017-03-12 本文已影响1444人 Z尽际

** Hadoop框架基础（一）

学习一个新的东西，传统而言呢，总喜欢漫无目的的扯来扯去，比如扯扯发展史，扯扯作者是谁，而我认为这些东西对于刚开始接触，并以开发为目的学者是没有什么帮助的，反而让人分了心，比如你玩LOL的时候，去玩某个英雄的时候，一般你是不会先看英雄的故事背景介绍的，而是读读技能介绍（技能介绍类似于开发文档），直接上线就是干，扔几个技能，发现，嘿？这英雄有点意思，用的多了，才会有可能去看看英雄的背景故事。（不排除你是一个纯粹的完美情怀主义者）

好，那么下面我就给大家简单的总结一下业内的开场内容。

学习内容：Hadoop框架

框架源码：Java

框架之父：Doug Cutting

目前维护：Apache基金会

核心用途：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。

（不够严谨的简单解释下：把大文件数据分布存储在多个电脑上（因为你一台电脑存不下），然后在多台电脑上进行数据分析（因为你一台电脑计算的慢），最终整合出结果）

Hadoop产生源于Google的一些论文（大陆请使用VPN代理查阅）：

GoogleCluster： http://research.google.com/archive/googlecluster.html

Chubby：http://labs.google.com/papers/chubby.html

GFS：http://labs.google.com/papers/gfs.html

BigTable：http://labs.google.com/papers/bigtable.html

MapReduce：http://labs.google.com/papers/mapreduce.html

随着发展，Apache上就出现了一个类似的解决方案，分别对应：

Chubby-->ZooKeeper

GFS-->HDFS

BigTable-->Hbase

MapReduce-->Hadoop

以上内容基本就是介绍框架时扯来扯去的核心，作者是非常厉害的（这不废话么）。在学习过程中，如果你慢慢对这些发展历史，作者，故事背景感兴趣了，你可以再查阅相关资料，毕竟学无止境。

** 准备工作

创建相关目录：

在root用户下，进入/opt/目录，在该目录下创建两个文件夹

mkdir softwares/：该目录用于存放各种软件安装包

mkdir modules/：该目录用于存放软件的安装目录

改变目录所属：

因为softwares和modules这两个目录为root用户所创建，所以所有者/组均为root，而我们一般使用的操作用户是普通用户，所以此时我们需要修改该两个目录的所有者/组，使用命令：

chown 所有者:所属组 /opt/modules/

chown 所有者:所属组 /opt/softwares/

例如,我这里：

chown z:z /opt/modules/

传递下载后的文件到虚拟机系统

完成以上步骤后，使用FileZilla Client工具（如果忘记如何连接，请查看前几节知识），连接成功后，如图：

此时双击红框部分，如上图所示，找到opt目录，之后你就可以看到两个你创建的目录：

然后，把软件上传到softwares下，直接从windows中拖入即可上传，完成后如图：

我这里上传的有其他软件，其实此时只需要框中部分的3个即可

现在把这3个部分分别解压到modules中，如图（只需留意红框内的内容）

解压命令：

tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

这3个目录已经解压

配置环境变量

配置JDK的环境变量，hadoop的环境变量暂时不需要配了

编辑profile文件，使用命令：

vi /etc/profile，添加如图所示内容：

$意为引用，冒号为分隔符

** Hadoop宏观认知

Hadoop项目主要包括以下四个模块

Hadoop Common：

为其他的Hadoop模块提供基础设施

Hadoop HDFS：

分布式文件系统

Hadoop MapReduce：

分布式离线并行计算框架

Hadoop YARN：

任务调度与资源管理框架

这里因为篇幅问题，我们只能做一些基础理解，更深入的挖掘需要读者自行研究（因为往下深究所需篇幅，可以单独再开一个专题）

** HDFS架构

总结：

1、一个Namenode节点和多个Datanode节点组成

2、Namenode是一个中心服务器，负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个，负责管理节点上它们附带的存储。通俗来讲，datanode就是用来存储某个大文件被拆分后的一个一个的小文件。

3、一个文件分成一个或多个block（数据块，数据块默认大小128M），这些block存储在Datanode集合里。

4、一般而言，一台机器跑一个单独的Namenode节点，集群中的其它机器各跑一个Datanode实例（当然也有一个台机器跑多个Datanode）。

5、Namenode中存放的有元数据（Metadata），比如：映射关系表（哪些数据块block存储在了哪些datanode节点中）

** YARN架构

总结：

yarn主要负责任务调度和资源管理的，比如，集群中，哪些机器还剩余多少CPU多少内存可用，集群中，还有哪些机器可以用来处理新的任务等等。

1、ResourceManager(RM)：主要接收客户端任务请求，接收和监控NodeManager(NM)的资源情况汇报，负责资源的分配与调度，启动和监控ApplicationMaster(AM)。

2、NodeManager：主要是节点上的资源管理，启动Container运行task计算，上报资源、负责把container情况给ResourceManager，把任务处理情况给ApplicationMaster。

3、ApplicationMaster：主要是单个Application(Job)的task管理和调度，向ResourceManager进行资源的申请，向NodeManager发出launch Container指令，接收NodeManager的task处理状态信息。

yarn工作流程：

1、client submit提交一个Job到ResourceManager，进入ResourceManager中的Scheduler队列供调度

2、ResourceManager根据NodeManager汇报的资源情况(NodeManager会定时汇报资源和container使用情况)，请求一个合适的NodeManager launch container，在该NodeManager所在机器启动运行ApplicationMaster

3、ApplicationMaster启动后，注册到ResourceManager上，以便client可以查到ApplicationMaster的信息，便于client直接和ApplicationMaster通信

4、ApplicationMaster启动后，根据Job相关情况，会和ResourceManager协商申请container资源

5、ResourceManager分配给ApplicationMaster container资源后，根据container的信息，向对应的NodeManager请求launch container

6、NodeManager启动container运行task，运行过程中向ApplicationMaster汇报进度状态信息，同时NodeManager也会定时的向ResourceManager汇报container的使用情况。

7、在application(job)执行过程中，client可以和ApplicationMaster通信，获取application相关的进度和状态信息。

8、在application(job)完成后，ApplicationMaster通知ResourceManager清除自己的相关信息（即AM自己关闭自己），并关闭，释放自己占用的container。

尖叫提示：Container为何物？

Container：

1、Container是yarn框架中对于资源的抽象描述，它封装了某个节点上一定量的资源（CPU与内存），你可以理解为Container是一个Java类，里面封装了对于资源的一系列描述，还封装了当前Job任务运行的片段代码。

2、Container由ApplicationMaster向ResourceManager申请的，由ResouceManager中的资源调度器异步分配给ApplicationMaster

3、Container的运行是由ApplicationMaster向资源所在的NodeManager发起的（即运行任务）

Container分类：

1、运行用户指定任务（ApplicationMaster）的Container：

这是由ResourceManager（向内部的资源调度器）申请和启动的，用户提交应用程序时，可指定唯一的ApplicationMaster所需的资源；

2、运行各类任务的Container：

这是由ApplicationMaster向ResourceManager申请的，并由ApplicationMaster与NodeManager通信以启用该Container

以上两类Container可能在任意节点上，它们的位置通常而言是随机的，即ApplicationMaster可能与它管理的任务运行在一个节点上。

相关术语知识点：

（本地松弛：是指如果某台NodeManager所能提供的Container不足，则在本台机架寻找另一台机器是否可以提供，如果本台机架所有机器都不能提供所需Container，则换一台机架找寻）

（机架感知：有兴趣的同学请查阅相关博客：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html，此处不再赘述）

** Hadoop基础配置

在进行Hadoop配置的时候，我们有时需要借助官方文档，毕竟那么多的配置属性，不是能全部记下来的

官方文档链接：http://hadoop.apache.org/docs/r2.5.2/

在我们的案例中，Hadoop的配置文档位于：

/opt/modules/hadoop-2.5.0/etc/hadoop

我们配置Hadoop就是配置这里面的xml文件和sh脚本文件，如果使用vi编辑器配置的话，可能不太习惯？那么接下来我们聊聊怎么使用Notepad++来配置（没有该软件的请自行下载）

打开Notepad++，如图：

如图所示3个地方需要注意：

1、红框：是否开启NppFTP视图，即右边的视图

2、蓝框：点击后，选择“Profile Settings”弹出绿框内容

3、绿框：点击Add new，我这边添加了一个z01，hostname主机名为z01，port端口号为：22，Username登录系统的用户为z，Password密码为你设置的该用户的密码

配置完成后，如下图，点击框内按钮，连接登录：

登录成功如图：

进入到/opt/modules/hadoop-2.5.0/etc/hadoop目录，即可使用Notepad++来编辑文本内容了，方便多了~

配置正式开始

1、首先修改3个.sh文件中的JDK路径

该3个文件分别是：

hadoop-env.sh

mapred-env.sh

yarn-env.sh

修改内容为：

export JAVA_HOME=/opt/modules/jdk1.8.0_111,如图：

修改后记得保存

2、hdfs配置

* core-site.xml

官方文档说明：http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/core-default.xml

修改后记得保存

属性解释：

fs.defaultFS：HDFS集群访问入口地址，其中z01也可以换成当前Linux的本机ip，如果此时你还没有在Linux中设置主机名映射，请参照之前Linux中的知识点进行设置即可。

hadoop.tmp.dir：数据存放路径

* hdfs-site.xml

官方文档说明：http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

修改后记得保存

属性解释：

dfs.replication：数据块副本数，默认为3。

* slaves

声明哪些服务器是datanode，每行一个主机名即可。

此案例我们只设置1个，即当前虚拟机机器

3、yarn配置

* yarn-site.xml

官方文档：http://hadoop.apache.org/docs/r2.5.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

属性解释：

yarn.nodemanager.aux-services：NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序

yarn.resourcemanager.hostname：resourcemanager的主机名，即哪一台主机当做ResourceManager

yarn.log-aggregation-enable：是否开启日志聚合功能

yarn.log-aggregation.retain-seconds：在HDFS上聚集的日志最多保存多长时间，单位：秒，86400相当于24小时

其他属性：

yarn.nodemanager.resource.memory-mb：表示该节点上yarn可使用的物理内存总量，默认是8192MB，如果该节点机器的内存不足8G，则需要调小这个值，yarn不会智能的探测节点的物理内存总量。

yarn.nodemanager.vmem-pmem-ratio：任务每使用1MB物理内存，最多可使用的虚拟内存量，默认为2.1。

yarn.nodemanager.pmem-check-enabled：是否启动一个县城检查每个任务正在使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认值为true。

yarn.nodemanager.vmem-check-enabled：是否启动一个线程检查每个任务正在使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认值为true。

yarn.scheduler.minimum-allocation-mb：单个任务可申请的最少物理内存量，默认是1024MB，如果一个任务申请的物理内存量少于该值，则对应的值改为这个数。

yarn.scheduler.maximum-allocation-mb：单个任务可申请的最多物理内存量，默认是8192MB。

4、map-reduce配置

* mapred-site.xml

官方文档：http://hadoop.apache.org/docs/r2.5.2/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

属性解释：

mapreduce.framework.name：设置运行MapReduce任务的框架

mapreduce.jobhistory.address：自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下，Hadoop历史服务器是没有启动的。配置该地址后，启动服务就可以通过Web UI来查看具体使用详情了。

mapreduce.jobhistory.webapp.address：web app客户端的访问入口