眼君的大数据之路

hadoop环境搭建

2020-08-27  本文已影响0人  眼君

Hadoop基础概念

Hadoop包含的基本组件

Hadoop Common:一个支持其他hadoop组件的公用组件。
HDFS:一个提供高吞吐量的分布式文件系统。
YARN:作业的调度和集群资源的管理。
MapReduce:一个基于YARN的并行处理大数据集的框架。

分布式文件系统HDFS

hdfs采用主从架构,一个HDFS集群由一个NameNode和一群DataNode组成。hdfs上每个文件会按照blocksize(一般128M)被拆分成多个Block,分散的存储在这群DataNode上。


NameNode的作用
  1. NameNode负责客户端请求的响应。
  2. 负责元数据(文件的名称、副本系数、Block存放的DataNone)的管理。
DataNode的作用
  1. 存储用户文件对应的数据块(Block)。
    2.要定期向NameNode发送心跳信息,汇报本身及其所有的block信息(文件名、副本系数、blockid)。

资源管理系统YARN

yarn是一个通用的资源管理系统,为上层应用提供统一的资源管理和调度。不同计算框架通过yarn可以共享同一个HDFS集群上的数据,享受整体的资源调度。

YARN的架构
ResourceManager(RM)
  1. 负责整个集群资源的统一管理和调度。
  2. 处理客户端的请求(开启和停止一个作业)。
  3. 监控我们的NM,一旦某个NM挂了,那么该NM上运行的任务需要告诉AM怎样处理。
NodeManager(NM)
  1. 负责自己本身节点资源管理和使用。
  2. 并定时向RM汇报本节点的资源使用情况。
  3. 接收并处理来自RM的各种命令,启动Container。
  4. 处理来自AM的命令。
  5. 单个节点的资源管理。
ApplicationMaster(AM)
  1. 每个应用程序(MR、Spark等)对应一个,负责应用程序的管理。
  2. 为应用程序向RM申请资源(core、memory),分配给内部的task处理。
  3. 需要与NM通信:启动/停止task,task是运行在container里面。
Container
  1. 封装了CPU、Memory等资源的一个容器。
  2. 是一个任务运行环境的抽象。
Client
  1. 提交作业。
  2. 查询作业的运行进度。
  3. 杀死作业。
YARN的执行流程
  1. 用户(Client)向yarn提交一个job,RM会为作业分配一个NM,并在该NM所在节点上开启Container。
  2. 在Container上启动一个AM。
  3. AM向RM注册同时申请资源,用户则可以通过查询RM获知当前任务状态。
  4. AM申请到资源后,会在对应的NM节点上开启Container,开启任务。
  5. 当任务完成,AM会销毁Container,回收资源,并向RM注销自己。
JOB提交过程
  1. 客户端向resourcemanager提交job请求。
  2. resourcemanager向客户端返回一个共享资源路径和一个application ID。
  3. 客户端拿到共享资源路径后,将共享资源(job.jar,job.split,job.xml)放到共享资源路径上。
  4. 客户端向resourcemanager发送完成报告并提交应用程序。
  5. resourcemanager接收到客户端的报告后返回一个空闲的资源节点。
  6. resourcemanager在对应节点上启动container。
  7. 在对应节点上初始化job,并生成一个job的作业簿,用于记录maptask和reducetask的运行状态和进度。
  8. 启动mrappmaster。
  9. mrappmaster.先到共享资源路径下获取切片信息和配置文件信息,知道需要运行多少maptask和reducetask。
  10. mrappmaster向resourcemanager申请运行maptask和reducetask资源。
  11. resourcemanager向mrappmaster返回空闲节点以运行maptask和reducetask。
  12. mrappmaster到对应的节点上,先从共享资源路径上下载共享资源(jar包、配置信息)。
  13. 上述节点获得共享资源后,启动container和maptask。
  14. maptask向resourcemanager汇报自身的运行状况和进度。
  15. mrappmaster依次在对应节点下载共享资源,以启动container和reducetask。
  16. 当所有节点的maptask和reducetask都完成后,mrappmaster对销毁container,回收资源,并向resourcemanager注销自己。

Hadoop环境搭建步骤

一、集群规划

假设我们有5台Centos系统机器,一台作为Master,四台作为slaves。五台机器处于同一局域网内。
可以用ifconfig命令查看当前机器的IP:

ifconfig
Centos初始化

如果虚拟机新安装的centos没有安装ifconfig命令报错,可以执行如下命令:

yum -y install net-tools

如果显示mirrors无法连接,则可能是网络没有启用联网功能,需要执行以下命令:

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改配置ONBOOT=no----->ONBOOT=yes后保存退出。
之后执行以下命令,重启网络服务:

service network restart

之后即可执行ifconfig命令了。
另外,执行以下命令可以更新centos软件包:

yum update

使用centos注意关闭防火墙:

#暂时关闭防火墙
systemctl stop firewalld
#永久关闭防火墙
systemctl disable firewalld

假设我们规划了五台机器的名称,并获得其IP如下:

master 172.18.0.5
slave1 172.18.0.1
slave2 172.18.0.2
slave3 172.18.0.3
slave4 172.18.0.4
为了更好的在Shell中区分这五台主机,我们分别在五台主机中执行如下命令:

sudo vim /etc/hostname

master的/etc/hostname添加:

master

同样,slave1的/etc/hostname添加:

slave1

所有5台机器都变更后,添加同样的配置:

sudo vim /etc/hosts

配置如下:

127.0.0.1 localhost
172.18.0.5 master 
172.18.0.1 slave1
172.18.0.2 slave2
172.18.0.3 slave3
172.18.0.4 slave4

重启系统后,hostname才会更新:

sudo reboot

二、安装和配置ssh

首先,五台电脑分别运行如下命令,测试是否能连接到本地localhost:

ssh localhost

登陆成功会显示如下结果:

Last login: Mon Feb 29 18:29:55 2016 from ::1
如果不能登陆本地,请运行如下命令,安装openssh-server,并生成ssh公钥。

sudo yum -y install openssh-server
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

保证所有电脑都能连同本地localhost后,还需要让master能免密登陆slaves。在master执行如下命令,将master的id_rsa.pub传送给所有slaves:

scp ~/.ssh/id_rsa.pub user@slave1:/home/user/
scp ~/.ssh/id_rsa.pub user@slave2:/home/user/
scp ~/.ssh/id_rsa.pub user@slave3:/home/user/
scp ~/.ssh/id_rsa.pub user@slave4:/home/user/

之后在所有slaves电脑上执行以下命令,查看目录中是否有id_rsa.pub存在:

ls ~

接着,在所有slaves电脑上执行以下命令,将master公钥添加到对应节点上:

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub

如果五台机器上用户名都一样,例如都是user,则master可以登陆任何slaves:

ssh slave1

如果五台机器用户名不一样,还需要在master修改~/.ssh/config文件,如果没有该文件,自己创建文件。

Host master
    user XXX
Host slave1
    user XXX

然后再免密登陆:

ssh slave1

三、JDK安装

五台机器都按以下方式安装JDK:
下载JDK,解压:

tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app

设置环境变量:

vim ~/.bash_profile
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
source ~/.bash_profile

验证java是否配置成功:

java -version

四、安装hadoop, 填写配置文件

下载好的hadoop安装包文件解压到目标目录下,hadoop根目录下有以下几个重要的目录:

sbin:启动或停止hadoop相关服务的脚本。
bin:对hadoop相关服务(HDFS、YARN)进行操作的脚本。
etc:hadoop的配置文件目录。
share:hadoop的依赖jar包和文档。
lib:hadoop的本地库。
我们填写的配置文件都位于hadoop/etc目录下。

hdfs相关的配置文件

以下配置文件是和hdfs组件相关的,需要填好才能启用hdfs的相关功能:

/etc/hadoop/hadoop-env.sh文件里需要给hadoop配置java环境:

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home

/etc/hadoop/core-site.xml文件用于配置hadoop运行时产生的临时数据的存储目录;以及hdfs的namenode的地址和端口号。

<configuration>
  <property>
    <!--hadoop临时目录-->
    <name>hadoop.tmp.dir</name>
    <value>file:/data/hadoop/tmp</value>
    <description>默认存在/tmp目录</description>
  </property>
  <property>
    <!--HDFS NameNode地址-->
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
    <description>指定hdfs的主节点</description>
  </property>
</configuration>

/etc/hadoop/hdfs-site.xml文件需要配置hdfs上数据的副本系数(包含原数据)、namenode和datanode数据存放的目录和secondarynamenode节点。

<configuration>
  <property>
    <!--HDFS副本数-->
    <name>dfs.replication</name>
    <value>2</value>
    <description>指定hdfs的副本数</description>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/hadoop/hadoop/tmp/dfs/name</value>
    <description>指定namenode数据的目录</description>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/hadoop/hadoop/tmp/dfs/data</value>
    <description>指定datanode数据的目录</description>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:9001</value>
    <description>指定secondarynamenode的节点</description>
  </property>
</configuration>

/etc/hadoop/workers(slaves),填写从属节点的主机名:

slave1
slave2
slave3
slave4

这个配置文件用于记录这个集群的所有datanode的主机名。

yarn相关的配置文件

以下配置文件是和yarn组件相关的,需要填好才能启用yarn的相关功能:

/etc/hadoop/mapred-site.xml文件指定mapreduce运行在什么地方:

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    <description>指定MapReduce运行在yarn上</description>
  </property>
  <property>
    <name>mapreduce.reduce.shuffle.memory.limit.percent</name>
    <value>0.10</value>
  </property>
</configuration>

/etc/hadoop/yarn-site.xml文件指定yarn的主节点等信息:

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
    <description>指定yarn的主节点</description>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>允许MapReduce运行在yarn上</description>
  </property>
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
  </property>
</configuration>

四、启动hdfs

在/bin目录下执行以下命令,格式化hdfs的文件系统,安装后执行一次即可:

hdfs namenode -format

格式化成功后,配置文件设置的tmp目录下会出现临时数据的目录结构。
在/sbin目录下执行以下命令即可启动hdfs服务:

./start-dfs.sh

执行完后,在任意目录下输入以下命令可以查看当前启动了哪些进程:

jps

如果上述命令可以查看到这个进程,则可以在浏览器中查看hdfs情况,这一步不同版本端口不太一样:

2.x:http://localhost:50070
3.x:http://localhost:9870
在/sbin目录下执行以下命令即可启动hdfs服务:

./stop-dfs.sh

五、启动yarn

在/sbin目录下执行以下命令,执行RM和NM进程:

sbin/start-yarn.sh

jps命令后可以查看到多了rm和nm的进程。或者在浏览器中键入以下地址,可以查看到RM的状况:http://localhost:8088
以Hadoop提供的测试文件/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar为例:

hadoop jar hadoop-mapreduce-examples-2.7.7.jar pi 2 3

在/sbin目录下执行以下命令,关闭RM和NM进程:

sbin/stop-yarn.sh

HDFS的使用

1. 将hadoop的bin和sbin命令目录放到环境变量中,这样就可以在所有目录下使用命令
# Setting PATH for Hadoop
export HADOOP_HOME=/Users/wenhuan/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
2. shell常用命令的使用
#确保有dataname开启的情况下可以使用以下命令,将文件上传到hdfs文件系统中。
hadoop fs -put <文件路径> <目标路径>
#text查看hdfs中文本内容
hadoop fs -text <hdfs中文本路径>
#mkdir在hdfs中创建目录
hadoop fs -mkdir <hdfs中文本路径>
#在hdfs中递归创建目录
hadoop fs -mkdir -p <hdfs中文本路径>
#从hdfs中获取文件
hadoop fs -mkdir -p <hdfs中文本路径>
#rm从hdfs中获取文件
hadoop fs -rm <hdfs中文本路径>
上一篇下一篇

猜你喜欢

热点阅读