单机版大数据开发环境安装方案(一)
2025-07-29 本文已影响0人
阿乐_822e
一、基本信息
主机名:xx-bigdata-server
IP:192.168.1.157
软件版本: hadoop-2.10.0/hbase-2.3.0/phoenix-5.1.3/hive-2.3.7
二、准备工作
2.1 配置ssh免登录
因为后面的dfs与yarn启动时需要多次输入密码,故先配置免密登录(启动脚本是先ssh到各个服务器上,再启动相关程序 )
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa # 生成密钥对(无密码)
$ chmod 700 ~/.ssh # 设置目录权限
$ ssh-copy-id -i ~/.ssh/id_rsa.pub xx-bigdata-server # 只有一台服务器
$ ssh xx-bigdata-server # 测试一下
2.2 安装JAVA环境
过程略
三、部署伪Hadoop集群
3.1 安装 Hadoop
将安装文件hadoop-2.10.0.tar.gz上传至/usr/local目录
cd /usr/local && tar -xzf hadoop-2.10.0.tar.gz
mv hadoop-2.10.0 hadoop
3.2 配置环境变量
vi ~/.bashrc # 添加:
export HADOOP_HOME=/usr/local/jdk1.8.0_211
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
# 再执行
source ~/.bashrc
3.3 修改4个核心配置文件
配置文件目录在:/usr/local/hadoop/etc/hadoop
3.3.1 core-site.xml文件
vi core-site.xml # 添加:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://xx-bigdata-server:9000</value>
</property>
<!-- 临时目录,可自定义 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp</value>
</property>
</configuration>
3.3.2 hdfs-site.xml文件
<!-- 伪分布式副本数必须为 1 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- Hadoop 2.x 使用 50070 -->
<property>
<name>dfs.namenode.http-address</name>
<value>xx-bigdata-server:50070</value>
</property>
<!-- SecondaryNameNode 的 HTTP 地址(单机就写 localhost) -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>xx-bigdata-server:50090</value>
</property>
<!-- 关闭权限检查,方便测试 -->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
3.3.3 mapred-site.xml 文件
如果不存在mapred-site.xml 文件,要先复制之
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml # 添加:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
3.3.4 yarn-site.xml 文件
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>xx-bigdata-server</value>
</property>
<!-- NodeManager 上运行的附属服务 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
3.4 格式化 HDFS
hdfs namenode -format
3.5 启动 Hadoop
start-dfs.sh
start-yarn.sh
说明:如果缺少步骤2.1,则这里需要多次输入密码
3.6 验证
3.6.1 查看节点
jps # 观察节点启动情况
59427 Jps
25717 NodeManager
27573 NameNode
25566 ResourceManager
27998 SecondaryNameNode
27759 DataNode
3.6.2 访问NameNode的网页
访问:http://192.168.1.157:50070/
image.png
3.6.3 访问yarn网页
image.png
四、作业测试
以下是一个小测试案例——WordCount词频统计
# 1. 创建本地测试文件
echo "hello hadoop hello world" > input.txt
# 2. 在HDFS上创建输入目录
hadoop fs -mkdir /input
3. 上传测试文件到HDFS
hadoop fs -put input.txt /input
4. 运行WordCount程序
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount /input /output
# 此时注意查看控制台日志:mapreduce.Job: map 100% reduce 100% ...... Job job_1753749954849_0002 completed successfully ......
5. 查看结果
hadoop fs -cat /output/part-r-00000 # 查看结果
hadoop 1
hello 2
world 1
说明:
- Hadoop要求输出路径是全新的目录,若/output已存在,需先删除:
hadoop fs -rm -r /output
- 若出现Permission denied,检查HDFS目录权限:
hadoop fs -ls / # 查看根目录权限
hadoop fs -chmod 777 /input # 开放权限
- 确保HDFS和YARN已启动:
start-dfs.sh # 启动HDFS
start-yarn.sh # 启动YARN
jps # 验证进程(应有NameNode/DataNode/ResourceManager)
至此,一个伪分布式单机版Hadoop集群已经搭建完毕。下一节安装相关开发组件:Hbase、Phoenix、Hive