Hadoop2伪分布式安装部署

2016-11-16  本文已影响0人  墙角儿的花

安装

配置伪分布式

hadoop的运行有三种模式:局部、伪分布式、分布式。

局部模式所有程序都运行在一个jvm中,适合开发环境,用来运行或调试MapReduce程序。

伪分布模式多个守护进程同时单独运行,但都运行在一个机器。

分布式模式守护进程运行于集群。

对了解学习hadoop而言,伪分布式是合适的选择,因为hadoop本身的运行上两者没有区别。

进入/home/rbg/tools/hadoop273/etc/hadoop,该路径是hadoop默认的配置文件路径。

配置hadoop

配置文件系统

设置hdfs文件系统的url,打开core.site.xml添加如下设置:

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000/</value>
</property>
</configuration>

配置hdfs

设置复制份数,打开hdfs-site.xml,添加如下配置:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

配置mapreduce

mapreduce采用yarn框架,打开mapred-site.xml,添加如下配置:

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

配置yarn

设置资源管理器地址和启动shuffle服务,打开yarn-site.xml,添加如下配置:

<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>localhost:8032</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

配置ssh

hadoop需要通过ssh在分布式或伪分布式下启动守护进程,因此,在只有一个机器的伪分布式下要保证能ssh localhost而不用通过密码进行登录。

通过如下命令生成密钥文件:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

将公钥添加到authorized_keys:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

通过ssh localhost登录,如果不需要输入密码说明配置成功。

注:如果ssh localhost提示输入密码,可检查.ssh和authorized_keys的权限模式是否分别是0700和0600。否则通过chmod 0700 .ssh和chmod 0600 .ssh/authorized_keys修改。

格式化文件系统

初次使用hdfs前需要格式化文件系统:

hdfs namenode -format

注:如报unknownhost错误,通过hostname命令查看本机名称,查看/etc/hosts中是否存在名称和ip间的映射,该处映射为127.0.0.1。

启动和关闭

启动hdfs、yarn、job历史服务:

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

通过jps可以查看到如下进程:

NodeManager
JobHistoryServer
ResourceManager
DataNode
SecondaryNameNode
NameNode

关闭:

mr-jobhistory-daemon.sh stop historyserver
stop-yarn.sh
stop-dfs.sh
上一篇 下一篇

猜你喜欢

热点阅读