Pyspark的Intellij idea环境搭建
2018-07-28 本文已影响510人
祗談風月
为什么需要IDE
在本地搭建一个spark环境可以方便spark代码的调试,可以和一般程序一样打断点,看变量,否则可能就只能打很多日志来debug了
选哪个IDE
Pyspark的IDE我用Intellij idea,我开发java程序时用idea,安装了python插件之后和pycharm是一样的,少装了一个pycharm,好处是不需要配两个IDE了,两者的配置步骤,位置基本是一致的
安装步骤
- 安装java,scala,并配置到环境变量
- 解压spark-2.3.0-bin-hadoop2.7.tgz, hadoop-2.7.6.tar.gz到本地某目录,我这里是
D:\CodeClub\Lib\
- 配置
SPARK_HOME=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7
和HADOOP_HOME=D:\CodeClub\Lib\hadoop-2.7.6
到环境变量 - 去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号,然后进入到bin目录下,下载winutils.exe文件,将这个文件放入到Hadoop的bin目录下
- 将
spark-streaming-kafka-0-8-assembly_2.11-2.3.0.jar
包放入本地的SPARK_HOME下的jars目录下(读kafka流使用) - 新建空白python工程
- 新建一个py文件,写一个小的spark demo程序
- run/debug configuration中选择python
- 在python的配置页中配置环境变量(必须配置在run/debug configurations中,我配置在系统环境变量中不生效,可能是哪里出错了)
PYTHONPATH=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python;D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip;PYTHONUNBUFFERED=1
- run/debug 看看效果吧
参考链接
- winutils.exe下载: https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
- hadoop.dll 下载: https://github.com/srccodes/hadoop-common-2.2.0-bin/tree/master/bin
- 参考: pyspark本地启动设置: https://blog.csdn.net/summerxiachen/article/details/79199603
ps
总结本文的时候,有几个小环节已经忘了,如果按步骤操作后还有问题,那么留言我会尽快回复_