windows系统中spark开发环境搭建
2019-12-23 本文已影响0人
小草莓子桑
Apache Spark™是用于大规模数据处理的统一分析引擎,在linux上spark集群搭建,这里就不说了,就说一下windows系统下搭建spark开发环境
安装JDK
需要先安装JDK,这里就不赘述了
安装spark
网址为:http://spark.apache.org/
我们这里选择带Hadoop的版本,要注意下,最好和自己的scala版本对上,不知道是不是必须的,但是有备无患吧,选择pre-built的版本,意思就是已经编译了好了,下载后解压直接用
![](https://img.haomeiwen.com/i6328467/c29aa0a42683fb9e.png)
下载后解压
![](https://img.haomeiwen.com/i6328467/e293e6befd6e4db8.png)
添加环境变量,就可以直接使用shell命令直接操作了
把spark目录下的bin目录,添加到环境变量path中
![](https://img.haomeiwen.com/i6328467/ae90c332e4fddebb.png)
cmd,spark-shell查看是否成功
![](https://img.haomeiwen.com/i6328467/0357dceee2786c9e.png)
运行spark-shell发现,缺失hadoop环境
安装hadoop环境
hadoop下载网址:https://archive.apache.org/dist/hadoop/common/
我们下载的spark版本是spark-2.4.4-bin-hadoop2.7,所以我们选择hadoop2.7版本
![](https://img.haomeiwen.com/i6328467/f75b5b95db46bf61.png)
直接选择编译好的版本
![](https://img.haomeiwen.com/i6328467/e0754a8003c17654.png)
下载后解压,配置环境变量
还是在path里面配置C:\hadoop\bin,就是hadoop目录下面的bin目录
然后继续运行spark-shell
![](https://img.haomeiwen.com/i6328467/5f3a998625e93f8b.png)
搭建spark开发环境,欢迎大家来交流,指出文中一些说错的地方,让我加深认识,愿大家没有bug,谢谢!