Pyspark的Intellij idea环境搭建

2018-07-28 本文已影响510人祗談風月

在本地搭建一个spark环境可以方便spark代码的调试，可以和一般程序一样打断点，看变量，否则可能就只能打很多日志来debug了

Pyspark的IDE我用Intellij idea，我开发java程序时用idea，安装了python插件之后和pycharm是一样的，少装了一个pycharm，好处是不需要配两个IDE了，两者的配置步骤，位置基本是一致的

安装java，scala，并配置到环境变量
解压spark-2.3.0-bin-hadoop2.7.tgz, hadoop-2.7.6.tar.gz到本地某目录，我这里是 D:\CodeClub\Lib\
配置SPARK_HOME=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7和HADOOP_HOME=D:\CodeClub\Lib\hadoop-2.7.6到环境变量
去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号，然后进入到bin目录下，下载winutils.exe文件，将这个文件放入到Hadoop的bin目录下
将spark-streaming-kafka-0-8-assembly_2.11-2.3.0.jar 包放入本地的SPARK_HOME下的jars目录下（读kafka流使用）
新建空白python工程
新建一个py文件，写一个小的spark demo程序
run/debug configuration中选择python
在python的配置页中配置环境变量（必须配置在run/debug configurations中，我配置在系统环境变量中不生效，可能是哪里出错了）
PYTHONPATH=D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python;D:\CodeClub\Lib\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip;PYTHONUNBUFFERED=1
run/debug 看看效果吧

总结本文的时候，有几个小环节已经忘了，如果按步骤操作后还有问题，那么留言我会尽快回复^_