windows系统中spark开发环境搭建

2019-12-23 本文已影响0人小草莓子桑

Apache Spark™是用于大规模数据处理的统一分析引擎，在linux上spark集群搭建，这里就不说了，就说一下windows系统下搭建spark开发环境

需要先安装JDK，这里就不赘述了

网址为：http://spark.apache.org/
我们这里选择带Hadoop的版本，要注意下，最好和自己的scala版本对上，不知道是不是必须的，但是有备无患吧，选择pre-built的版本，意思就是已经编译了好了，下载后解压直接用

spark网址
下载后解压

解压

把spark目录下的bin目录，添加到环境变量path中

path

cmd，spark-shell查看是否成功

缺失hadoop环境
运行spark-shell发现，缺失hadoop环境

hadoop下载网址：https://archive.apache.org/dist/hadoop/common/
我们下载的spark版本是spark-2.4.4-bin-hadoop2.7，所以我们选择hadoop2.7版本

hadoop2.7版本
直接选择编译好的版本

编译好的版本
下载后解压，配置环境变量
还是在path里面配置C:\hadoop\bin，就是hadoop目录下面的bin目录
然后继续运行spark-shell

运行成功

搭建spark开发环境，欢迎大家来交流，指出文中一些说错的地方，让我加深认识，愿大家没有bug，谢谢！