spark环境搭建
一、安装环境
OS:CentOS 7
Hadoop版本:2.6.0
Spark版本:1.2.1
Scala版本:2.11.5
默认hadoop环境在之前实验已经搭建好了,助教的配置是:
ResourceManager节点
NameNode节点
SecondaryNameNode节点
DataNode节点
以上是本文档中Spark搭建的环境和相关程序版本,其它版可以参考网络上相关的配置方法。
二、搭建步骤
1、配置Scala,因为Spark是用Scala语言编写的,对Scala环境有依赖性。(每个节点都要配置)
(1)下载Scala-1.2.1,(http://www.scala-lang.org/)
解压文件包,放在/usr/scala/目录下
(2)配置Scala环境变量
编辑/etc/profile文件,添加如下代码行(使用vi命令)
# set scala environment
export PATH="$PATH:/usr/scala/scala-2.11.5/bin"
![](https://img.haomeiwen.com/i2061490/c17e8306234e92cf.png)
(3)验证环境变量
保存后输入source /etc/profile命令,是环境变量生效。每个节点都要配置Scala环境变量,确保输入scala –version命令时出现如下图片中的内容:
![](https://img.haomeiwen.com/i2061490/b1e7a07aedf66370.png)
2.配置Spark-1.2.1(每个节点都要配置)
(1)下载Spark-1.2.1,(http://spark.apache.org/)
解压文件包,放在/usr/spark/目录下
(2)修改/usr/spark/spark-1.2.1/conf/目录下的slaves文件添加
# A Spark Worker will be started on each of the machines listed below.
ResourceManager
NameNode
SecondaryNameNode
DataNode
(3)配置Spark环境变量
编辑/etc/profile文件,添加如下代码行
# set spark environment
export SPARK_HOME="/usr/spark/spark-1.2.1"
export PATH=$SPARK_HOME/bin:$PATH
(4)配置spark-env.sh
编辑spark-env.sh
![](https://img.haomeiwen.com/i2061490/705b676de41a6ccf.png)
(5)验证环境变量
输入source /etc/profile,使更改生效,输入echo $PATH查看环境变量,会有如下结果:
![](https://img.haomeiwen.com/i2061490/ae0637cd101b6b2f.png)
3.启动Spark
(1)Hadoop已经启动
Spark对Hadoop有相关依赖性
(2)启动Spark
在/usr/spark/spark-1.2.1/sbin/文件夹下,执行./start-all.sh
输入jps命令查看各个节点结果:
![](https://img.haomeiwen.com/i2061490/8051c19e8b79bf35.png)
NameNode节点
![](https://img.haomeiwen.com/i2061490/b590d57846ecd3e5.png)
ResourceManager节点
![](https://img.haomeiwen.com/i2061490/02589eacbbd965bd.png)
SecondarNameNode节点
![](https://img.haomeiwen.com/i2061490/ac926a1219c9622c.png)
DataNode节点
三、网页查看集群状态
1、在浏览器输入http://namenode:8080/
![](https://img.haomeiwen.com/i2061490/d5d5df0694baeb03.png)