windows环境下做spark开发

2018-12-06 本文已影响7人 Frank_8942

windows下spark运行环境搭建

准备安装包:
jdk, scala, hadoop, spark 和 windows 下的依赖文件压缩包

注:依赖文件压缩包已经上传到百度云中的tool目录下;

步骤:

1. 安装jdk,配置 JAVA_HOME 环境变量;

2. 安装scala, 配置 SCALA_HOME 环境变量;

3. 解压hadoop安装包,配置 HADOOP_HOME 环境变量;

4. 解压spark安装包,配置 SPARK_HOME 环境变量;

5. 解压windows下的依赖压缩包, 将依赖文件放入对应的目录中
 将 hadoop.dll 文件放入system32的目录下 , 将 winutils 文件放入hadoop的 ./bin目录下 

6. 测试

使用 spark-shell 学习

#在已经配置了spark环境变量的前提下, 在 cmd 窗口后执行 spark-shell 命令
spark-shell  

//列出 spark-shell 的参数
spark-shell --help 

//变量 spark, sc
spark是 SparkSession  的实例对象 
sc是 SparkContext 的实例对象

//spark默认使用的数据库是: default
//查看spark-shell 的工作目录,会存在 spark-warehouse, 此目录就是用于存放表数据的目录,其中目录名以 .db 结尾表示数据库目录, 其余的目录就是表目录;

//此命令用于获取此shell的配置参数
spark.sql("set  -v").show

//用于设置 手动执行的参数
spark.sql(" set  key=value")

//用于在控制台查看此 key 的参数
spark.sql("set key").show

使用 idea 开发spark

spark2.x中, 内部默认集成了 derby 数据库,可以创建本地hive的;
所以在spark程序中,直接写hive的sql语句就可以完成数据处理过程;

//设置数据仓库位置
.config("spark.sql.warehouse.dir","e:/tmp/hive")

windows环境下做spark开发

windows下spark运行环境搭建

使用 spark-shell 学习

使用 idea 开发spark

猜你喜欢

热点阅读