Windows上的PyCharm 远程连接调试pyspark
在实验室配置了一个Spark集群,传统的方法就是在Windows本地开发项目,完了后打包,然后上传到Linux服务器上,最后执行
spark-submit
。但是在实际开发用还是感觉用IDE比较好,于是找到了Pycharm远程连接Linux服务器开发Spark项目的方法。
1.设置环境变量
在Linux中/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python/lib
目录下py4j
包添加在系统环境变量中,注意源码包的版本问题,要与下面安装的py4j
的版本一致才行。
vim /etc/profile
#添加环境变量
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip
#生效
source /etc/profile
2.远程服务器同步配置
2.1在Linux上安装py4j
我的集群(Centos 7)上原本是Python2.7
,后来是工作需要改为了Python3.6.4
。在Centos 7 安装py4j
首先要安装pip3
,这里采用Yum安装的方式。
在使用yum安装的时候会出现无法使用yum的错误,根据提示信息将文件最上面的改为python2.7即可。
yum install pip3
pip3 install py4j
image.png
2.2配置Deployment
首先我们需要配置PyCharm通服务器的代码同步,打开Tools | Deployment | Configuration
点击左边的“+”添加一个部署配置,输入名字,类型选SFTP
image.png添加一个部署配置,输入自己的远程服务器的IP地址59.68.29.XX
,Root path
填写Linux服务器中的文件上传的根目录,注意这个目录必须当前用户有权创建文件,User name
为登录Linux服务器登录名,可以先测试一下连接是否成功。
在Mapping
选项中,Local Path
为Windows下的项目存放路径,就是将本地目录同步到服务器上面,Deployment path on server'tset'
的意思就是在上面的Root Path
路径后面追加的路径地址。
2.3Python interpreter配置
配置Python的解释器,下面先添加远程服务器:
image.png采用SSH连接,添加下面的基本参数即可。
image.png如果在Package中没有自动导入这个包需要手动添加,点击右边的加号即可。
image.png image.png3.配置Run以及运行实例
将上面的配置结束之后,配置Run的参数。主要是配置Environment variables
参数,将SPARK_HOME =/usr/local/spark/spark-2.2.0-bin-hadoop2.7
和PYTHONPATH=/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python
,因为我的spark集群建立在hadoop上我还添加了HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.2
、JAVA_HOME=/usr/local/java/jdk1.8.0_144
配置好就行了。
最后先将项目上传到Linux服务器中,Update to..
是可以选择不同的远程服务器。
实例代码:
import os
import sys
from pyspark.sql import SparkSession
#os.environ['SPARK_HOME'] = 'usr/local/spark/spark-2.2.0-bin-hadoop2.7'
#sys.path.append('/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python')
sys.path.append('/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python/lib')
if __name__ == '__main__':
spark = SparkSession.builder\
.appName("Python Spark SQL basic example")\
.config("spark.some.config.option", "some-value")\
.getOrCreate()
spark.sql("show databases").show()
运行结果:
image.png运行成功!但是出现的问题是我的这个数据库是连接的是哪个数据库呢?我集群中的用的是Hive中元数据库为Mysql,有以下数据库:
image.png这个错误待解决......