Spark集群
- 安装Spark依赖Scala
1.1 下载解压缩scala
1.2 配置环境变量
1.3 验证scala - 下载安装spark
2.1 下载解压缩spark
2.2 spark配置环境变量
2.3 配置conf目录下文件- 新建spark-env.sh文件
- 新建slaves文件
2.4 启动测试spark集群 - 启动spark
- 测试使用spark
1.安装spark依赖scala
1.1下载安装scala
spark是由scala语言写的,所以安装spark之前,需要安装scala(每个节点都需要安装)
scala下载地址:https://www.scala-lang.org/download/
目前最新2.12.6,我安装的此版本,如图:
执行解压命令即安装完成
tar -zxvf scala-2.12.6.tgz
1.2配置环境变量
编辑/ect/profile文件
vim /ect/profile
配置环境变量
export SCALA_HOME=/opt/scala/scala-2.12.6
export PATH=$SCALA_HOME/bin:$PATH
生效配置
source profile
1.3验证scala
执行查看版本命令
scala -version
如图:
至此,恭喜你,scala安装成功!
2.下载和解压缩Spark
2.1下载安装Spark
spark下载地址:http://spark.apache.org/downloads.html
执行解压命令即安装完成
tar -zxvf spark-2.3.1-bin-hadoop2.6.tgz
2.2配置环境变量
编辑/ect/profile文件
vim /ect/profile
配置环境变量
export SPARK_HOME=/opt/spark/spark-2.3.1-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
生效配置
source profile
2.3配置conf目录下文件
切换conf目录命令
cd /opt/spark-2.3.1-bin-hadoop2.6/conf
新建spark-env.sh文件
cp spark-env.sh.template spark-env.sh
新建slaves文件
cp slaves.template slaves
编辑slaves文件
vim slaves
配置节点
slave1
slave2
2.4启动测试spark集群
启动spark
因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。
cd /opt/spark/spark-2.3.1-bin-hadoop2.6/sbin
./start-all.sh
测试spark
访问master机器,ip:192.168.66.10,访问端口8800,
url:http://192.168.66.10:8800/
使用spark
这里只是简单的用local模式运行一个计算圆周率的Demo
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.1.1.jar