Hadoop平台基础搭建
基础准备:
Ubuntu
hadoop-2.7.3.tar.gz
jdk-8u144-linux-x64.tar.gz
1.Hadoop平台是完全使用Java开发的,所以在搭建Hadoop时我们首先需要安装jdk,并且配置它的环境变量。
1)首先将jdk的tar包进行解压,作者的tar是在/usr/hadoop/目录下的,输入指令:
sudo tar -zxf /usr/hadoop/jdk-8u144-linux-x64.tar.gz -C /usr/lib
首先将jdk的tar包进行解压
解压完以后我们要进行的是环境变量的配置
2)首先我们用vim编辑器打开在 ~/.bashrc
vim ~/.bashrc
之后在改文件底部加上两行配置
export JAVA_HOME=jdk所在路径
export PATH=$PATH:$JAVA_HOME/bin
更改完成以后保存并退出
之后使配置文件生效
source ~/.bashrc
2.Hadoop的安装和配置
1)首先需要解压Hadoop文件和之前的一样jdk一样不再进行复述
2)之后需要在bashrc文件中进行环境变量的配置
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
更改完成以后保存并退出
之后使配置文件生效
source ~/.bashrc
3)之后就需要对Hadoop平台的配置文件进行更改,在更改之前首先介绍一下Hadoop平台根目录下的各个目录的作用和存放内容:
目录 | 说明 |
---|---|
bin/ | 各项运行文件,包括Hadoop、hdfs、yarn等 |
sbin/ | 各项shell运行文件。包括start-all.sh、stop-all.sh |
etc/ | etc/hadoop 子目录包含Hadoop配置文件,例如: hadoop-env.sh、core-site.xml、yarn-site.xml、mapred-site.xml、hdfs-site.xml |
lib/ | hadoop函数库 |
logs/ | 系统日志,可以查看系统运行状况,运行有问题时可以从日志找出错误原因 |
下面我们进行hadoop配置设置文件
- hadoop-env.sh
使用vim编辑器打开这个配置文件,需要更改的地方:
export JAVA_HOME=${JAVA_HOME}
将=右边的内容全部删除更改为jdk的安装路径
- core-site.xml
在configuration标签中添加以下内容:
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
- yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
- mapred-site.xml
首先我们需要执行下面这条语句将mapred-site.xml.template模板转成xml文件
sudo cp mapred-site.xml.template mapred-site.xml
之后还是使用vim编辑器进行编辑
<property>
<name>mapreduce.framework.name</name>
<value>yarn<value>
<property>
- hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode</value>
</property>
所有的配置文件全部都已经修改完成
之后我们需要创建HDFS目录
分别创建这两个文件目录:
/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode
/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode
现在我们需要将hadoop目录的所有者改为我们当前使用的账号,因为sudo方式无法去使用hadoop命令因此我们去格式化hdfs时将会权限不够
sudo chown 所属用户:所属分组 -R /usr/local/hadoop
之后我们就可以进行HDFS的格式化咯
hadoop namenode -format
现在我们就需要去启动hdfs上的各种服务了,因为我们搭建的是伪分布式,因此我们需要ssh工具,并且设置它为免密登录
首先是下载ssh
sudo apt-get install ssh
之后是产生SSH Key(秘钥)进行后续身份验证
ssh-keygen -t rsa
产生了以后我们需要去查看一下确定是否产生
ll ~/.ssh
你将会看到所有的文件中有一个名字叫id_rsa.pub的文件,那么我们的秘钥就已经生成成功了,最后我们需要将产生的key放置到许可证文件中
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
启动hadoop上的所有服务
start-all.sh
最后一步查看hadoop伪分布式是否已经搭建成功
jps
最后的效果应该是:
进程效果图.png