【1】安装hadoop
现在才接触大数据,晚么?找个地方记录下学习成长,光是各个组件就用的头疼,记一下安装情况。
1. 安装环境
- 安装包:
jdk1.8
hadoop2.7
- 系统环境:
centos7
2. JDK安装
-
上传压缩包,解压,重命名至
/home/common/jdk1.8
进入目录
cd /home/common/
解压
tar -zxvf jdk-8u181-linux-x64.tar
重命名
mv jdk-8u181-linux-x64.tar jdk1.8
-
配置环境变量
vim /etc/profile
输入以下内容(这里先把hadoop的环境变量一起配置了)
export JAVA_HOME=/home/common/jdk1.8 export HADOOP_HOME=/home/common/hadoop2.7 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin
使环境变量生效
source /etc/profile
此时在命令行打出java -version显示如下信息则安装成功:
java version "1.8.0_181" Java(TM) SE Runtime Environment (build 1.8.0_181-b13) Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)
3. hadoop安装
这里安装的是集群模式,三台机器vm01,vm02,vm03分配如下
hostname | nn | dn | rm | nm | snn |
---|---|---|---|---|---|
vm01 | √ | √ | √ | √ | √ |
vm02 | √ | √ | |||
vm03 | √ | √ |
nn:NameNode
dn:DataNode
rm:ResourceManager
nm:NodeManager
snn:SecondNameNode
-
上传解压重命名为
/home/common/hadoop2.7
-
配置环境变量,参考jdk安装步骤
-
进入配置文件目录,修改配置文件
hadoop2.7/etc/hadoop/
-
配置core-site.xml
<!-- 指定hadoop的文件存储系统及日志文件 --> <property> <name>fs.defaultFS</name> <value>hdfs://vm01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/tmp/hadoop</value> </property>
-
配置hdfs-site.xml
<!-- 备份数以及snn节点 --> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.secondary.http.address</name> <value>vm01:50090</value> </property>
-
配置mapred-site.xml (这个需要复制重命名)
<!-- 对接yarn --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
-
配置yarn-site.xml
<!-- 配置rm --> <property> <name>yarn.resourcemanager.hostname</name> <value>vm01</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
-
配置hadoop-env.sh`
export JAVA_HOME=/home/common/jdk1.8
-
配置slaves
vm01 vm02 vm03
-
将vm01上的hadoop发送到各个集群节点
cd /home/common/
scp -r hadoop2.7 root@vm02:/home/common/
scp -r hadoop2.7 root@vm03:/home/common/
-
启动hadoop
-
在hadoop的bin目录下初始化namenode(只需第一次)
hadoop namenode -format
-
启动hdfs集群(该命令在hadoop的sbin目录下,因为之前配置了环境变量,可以直接运行)
start-dfs.sh
-
启动yarn集群
start-yarn.sh
-
此时进入web页面可以查看各个集群启动情况
(在windows浏览器查看时记得配置hosts,否则要用ip地址来访问)hdfs:http://vm01:50070/
yarn:http://vm01:8088/
或者在linux命令行中输入
jps
查看启动线程情况//vm01节点 [root@vm01 bin]# jps 2480 NodeManager 1941 NameNode 2215 SecondaryNameNode 2727 Jps 2360 ResourceManager 2063 DataNode //vm02节点 [root@vm02 common]# jps 1681 DataNode 1768 NodeManager 1865 Jps //vm03节点 [root@vm03 ~]# jps 1734 NodeManager 1831 Jps 1646 DataNode
每个节点启动的线程应该是和前面的表格对应的配置是一致的
-
-
至此,hadoop安装完毕,可以在linux中输入hadoop命令进行相关操作
#查看hdfs文件系统下根目录 hadoop fs -ls / #上传文件至根目录(/)下 hadoop fs -put /home/common/helloworld / #查看某个文件内容 hadoop fs -cat /helloworld.txt
4. hadoop中各个UI常用端口
hdfs : 50070
yarn: 8088
hdfs文件系统:9000