数据科学家大数据,机器学习,人工智能玩转大数据

Hadoop平台基础搭建

2017-09-16  本文已影响108人  红炉点雪hi

基础准备:
Ubuntu
hadoop-2.7.3.tar.gz
jdk-8u144-linux-x64.tar.gz

1.Hadoop平台是完全使用Java开发的,所以在搭建Hadoop时我们首先需要安装jdk,并且配置它的环境变量。

1)首先将jdk的tar包进行解压,作者的tar是在/usr/hadoop/目录下的,输入指令:

sudo tar -zxf /usr/hadoop/jdk-8u144-linux-x64.tar.gz -C /usr/lib

首先将jdk的tar包进行解压
解压完以后我们要进行的是环境变量的配置

2)首先我们用vim编辑器打开在 ~/.bashrc

vim ~/.bashrc

之后在改文件底部加上两行配置

export JAVA_HOME=jdk所在路径
export PATH=$PATH:$JAVA_HOME/bin

更改完成以后保存并退出
之后使配置文件生效

source ~/.bashrc

2.Hadoop的安装和配置
1)首先需要解压Hadoop文件和之前的一样jdk一样不再进行复述
2)之后需要在bashrc文件中进行环境变量的配置

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

更改完成以后保存并退出
之后使配置文件生效

source ~/.bashrc

3)之后就需要对Hadoop平台的配置文件进行更改,在更改之前首先介绍一下Hadoop平台根目录下的各个目录的作用和存放内容:

目录 说明
bin/ 各项运行文件,包括Hadoop、hdfs、yarn等
sbin/ 各项shell运行文件。包括start-all.sh、stop-all.sh
etc/ etc/hadoop 子目录包含Hadoop配置文件,例如: hadoop-env.sh、core-site.xml、yarn-site.xml、mapred-site.xml、hdfs-site.xml
lib/ hadoop函数库
logs/ 系统日志,可以查看系统运行状况,运行有问题时可以从日志找出错误原因

下面我们进行hadoop配置设置文件

  • hadoop-env.sh
    使用vim编辑器打开这个配置文件,需要更改的地方:
export JAVA_HOME=${JAVA_HOME}

将=右边的内容全部删除更改为jdk的安装路径

  • core-site.xml
    在configuration标签中添加以下内容:
<property>
  <name>fs.default.name</name>
  <value>hdfs://localhost:9000</value>
</property>
  • yarn-site.xml
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
  • mapred-site.xml
    首先我们需要执行下面这条语句将mapred-site.xml.template模板转成xml文件
sudo cp mapred-site.xml.template mapred-site.xml

之后还是使用vim编辑器进行编辑

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn<value>
<property>
  • hdfs-site.xml
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode</value>
</property>

所有的配置文件全部都已经修改完成
之后我们需要创建HDFS目录
分别创建这两个文件目录:
/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode
/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode

现在我们需要将hadoop目录的所有者改为我们当前使用的账号,因为sudo方式无法去使用hadoop命令因此我们去格式化hdfs时将会权限不够

sudo chown 所属用户:所属分组 -R /usr/local/hadoop

之后我们就可以进行HDFS的格式化咯
hadoop namenode -format

现在我们就需要去启动hdfs上的各种服务了,因为我们搭建的是伪分布式,因此我们需要ssh工具,并且设置它为免密登录
首先是下载ssh

sudo apt-get install ssh

之后是产生SSH Key(秘钥)进行后续身份验证

ssh-keygen -t rsa

产生了以后我们需要去查看一下确定是否产生

ll ~/.ssh

你将会看到所有的文件中有一个名字叫id_rsa.pub的文件,那么我们的秘钥就已经生成成功了,最后我们需要将产生的key放置到许可证文件中

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

启动hadoop上的所有服务

start-all.sh

最后一步查看hadoop伪分布式是否已经搭建成功

jps

最后的效果应该是:

进程效果图.png
上一篇下一篇

猜你喜欢

热点阅读