我爱编程

hadoop学习笔记(五)MapReduce环境

2018-03-08  本文已影响0人  桐间纱路

Hadoop核心组件——MR(Map-Reduce)
Hadoop分布式计算框架Map-Reduce

Map-Reduce流程分四步:split->map->shuffle->reduce


上图是一个简单的例子,统计一个文本中各单词出现的数量。
Map-Reduce的Split大小

MapReduce的架构1.x


在hadoop2.x中,我们通常搭建高可用环境,因此SecondaryNameNode变成一个standby状态的namenode有zookeeper集群负责维护,Job Tracker改名为ResourceManager,Task Tracker改名为nodemanager。

Map-Reducer高可用环境搭建
我们用node3和node4作为resoucemanager
首先,执行stop-dfs.sh停掉hadoop集群
mapred-site.xml(改文件可能叫mapred-site.xml.template,需要重命名)
添加

  <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

yarn-site.xml:

  <property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster1</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<!--配置rousource节点>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>node3</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>node4</value>
</property>
<!--配置zookeeper集群>
<property>
  <name>yarn.resourcemanager.zk-address</name>
  <value>node3:2181,node4:2181,node5:2181</value>
</property>

改完之后同步配置文件。
然后执行:start-all.sh 启动整个hadoop
然后再node3和node4上执行jps看看是否有resourcemanager,由于start-all.sh脚本有bug因此没有启动需要手动启动,命令yarn-daemon.sh start resourcemanager
nodemanager默认为node3-node5,因为我们在slaves中配置过datanode,该文件也同时配置了nodemanager。
启动之后我们可以访问node3和node4的8088端口查看resourcemanager状态

上一篇 下一篇

猜你喜欢

热点阅读