大数据||hadoop分布式集群安装
集群前先计划虚拟机,看文章大数据||Hadoop分布式部署虚拟机
-
基于伪分布式环境安装进行展开
规划机器与服务(★★★★☆)
HDFS 文件系统
YARN “云操作系统”
JobHistoryServer 历史服务监控 -
修改配置文件,设置服务运行机器节点(★★★☆☆)
-
分发HADOOP安装包至各个机器节点
-
依据官方集群安装文档,分别启动各节点相应服务
-
测试 HDFS 、YARN、 MapReduce ,Web UI 监控集群(★★★☆☆)
-
配置主节点至各从节点 SSH 无密钥登陆
-
集群基准测试(实际环境必须的,面试题)
系统基本环境配置
规划机器与服务
copy 伪分布模式步骤
image.png配置hdfs
-
配置jdk。
-
配置hdfs的nameNode地址
- 配置hadoop数据存储目录及垃圾回收时间
创建hadoop数据存储目录 mkdir -p /opt/app/hadoop-2.5.0/data/tmp
- 配置secondaryNameNode
vi /opt/app/hadoop-2.5.0/etc/hadoop/hdfs-site.xml
- 配置集群 slaves
vi /opt/app/hadoop-2.5.0/etc/hadoop/slaves
yarn配置
- yarn的环境变量配置 。
vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-env.sh
- resourceManager配置
vi /opt/app/hadoop-2.5.0/etc/hadoop/yarn-site.xml
- 配置集群slaves
vi /opt/app/hadoop-2.5.0/etc/hadoop/slaves
配置MapReduce
- mapReduce环境变量
vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-env.sh
- 配置jobhistoryserver
vi /opt/app/hadoop-2.5.0/etc/hadoop/mapred-site.xml
分发Hadoop安装包至各个机器节点
-
首先删除doc文件,此文件夹不需要分发
-
从主节点(131)到从节点(132,133)无密码登入及测试
ssh-copy-id hadoop-senior02.beifeng.com
ssh-copy-id hadoop-senior03.beifeng.com
说明:ssh-copy-id命令可以把本地主机的公钥复制到远程主机的authorized_keys文件上,ssh-copy-id命令也会给远程主机的用户主目录(home)和~/.ssh
, 和~/.ssh/authorized_keys
设置合适的权限
- 分发hadoop安装包到子节点(132,133node节点)
命令scp(ssh copy)
scp -r ./hadoop-2.5.0 root@hadoop-senior02.beifeng.com:/opt/app/
scp -r ./hadoop-2.5.0 root@hadoop-senior03.beifeng.com:/opt/app/
yarn(132)无密码登入
-
删除复制过来的虚拟机
-
两个linux机器之间使用ssh不需要用户名和密码
命令:ssh-keygen -t rsa 。
两个linux机器之间使用ssh不需要用户名和密码,采用了数字签名RSA或者DSA来完成这个操作
- 公钥复制到远程主机的authorized_keys文件上
ssh-copy-id hadoop-senior02.beifeng.com
ssh-copy-id hadoop-senior.beifeng.com
ssh-copy-id hadoop-senior03.beifeng.com
image.png