2)Hadoop运行环境配置
官方手册 2.7.2版本
Linux环境准备
1)关闭防火墙,配置静态ip,主机名称
3)安装Hadoop 配置环境变量
4)配置 SSH
运行环境
1)本地模式
运行本地grep官方案例:
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
$ cat output/*
运行本地WordCount官方案例:
$ mkdir wcinput
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput/ wcoutput
$ cat wcoutput/*
2)伪分布模式
3)完全分布式模式
3.1)部署规划
3.2)参考
3.3)修改配置文件
3.3.1)HDFS配置文件
指定Hadoop辅助名称节点可修改 etc/hadoop/hdfs-site.xml:
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:50090</value> <!-- hadoop104为主机名称 -->
</property>
</configuration>
3.3.2)YARN配置文件
指定YARN的ResourceManager地址可修改etc/hadoop/yarn-site.xml:
<configuration>
<!-- 指定Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value> <!-- hadoop103为主机名称 -->
</property>
</configuration>
3.3.3)MapReduce配置文件
制定MR运行在YARN上可修改etc/hadoop/mapred-site.xml 增加如下配置:
<!-- 制定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
3.4)使用集群分发脚本分配置好的Hadoop配置文件
$ xsync /opt/module/hadoop-2.7.2/
3.4.1)查看文件分发情况
$ cat /opt/module/hadoop2.7.2/etc/hadoop/core-site.xml
3.5)集群单节点启动
3.5.1)格式化
$ bin/hdfs namenode -format
3.5.2)启动
无SSH需要每台服务器一个一个节点启动
$ sbin/hadoop-daemon.sh start namenode
$ sbin/hadoop-daemon.sh start datanode
SSH无密登录配置,配置完成后还需要进行3.6)群起集群的操作
3.6)群起集群
3.6.1)配置slaves
/opt/module/hadoop-2.7.2/etc/hadoop/slaves
$ vim slaves
3.6.2)增加如下内容,存放DataNode的节点的主机名称,注意不允许有空格和空行
hadoop102
hadoop103
hadoop104
3.6.3)分发slaves
$ xsync slaves
3.6.4)启动HDFS
$ sbin/start-dfs.sh
3.6.5)启动YARN(存放ResourceManager的节点在那个服务器上就在那个服务器上启动)
$ sbin/start-yarn.sh
集群启动/停止方式总结
1)单节点
启动/停止HDFS
hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode
启动/停止YARN
yarn-daemon.sh start/stop resourcemanager/nodemanager
2)集群
启动/停止HDFS
start-dfs.sh / stop-dfs.sh
启动/停止YARN
start-yarn.sh / stop-yarn.sh
全部启动/全部停止
start-all.sh / stop-all.sh