windows环境下做spark开发
2018-12-06 本文已影响7人
Frank_8942
windows下spark运行环境搭建
准备安装包:
jdk, scala, hadoop, spark 和 windows 下的依赖文件压缩包
注:依赖文件压缩包已经上传到百度云中的tool目录下;
步骤:
1. 安装jdk,配置 JAVA_HOME 环境变量;
2. 安装scala, 配置 SCALA_HOME 环境变量;
3. 解压hadoop安装包,配置 HADOOP_HOME 环境变量;
4. 解压spark安装包,配置 SPARK_HOME 环境变量;
5. 解压windows下的依赖压缩包, 将依赖文件放入对应的目录中
将 hadoop.dll 文件放入system32的目录下 , 将 winutils 文件放入hadoop的 ./bin目录下
6. 测试
使用 spark-shell 学习
#在已经配置了spark环境变量的前提下, 在 cmd 窗口后执行 spark-shell 命令
spark-shell
//列出 spark-shell 的参数
spark-shell --help
//变量 spark, sc
spark是 SparkSession 的实例对象
sc是 SparkContext 的实例对象
//spark默认使用的数据库是: default
//查看spark-shell 的工作目录,会存在 spark-warehouse, 此目录就是用于存放表数据的目录,其中目录名以 .db 结尾表示数据库目录, 其余的目录就是表目录;
//此命令用于获取此shell的配置参数
spark.sql("set -v").show
//用于设置 手动执行的参数
spark.sql(" set key=value")
//用于在控制台查看此 key 的参数
spark.sql("set key").show
使用 idea 开发spark
spark2.x中, 内部默认集成了 derby 数据库,可以创建本地hive的;
所以在spark程序中,直接写hive的sql语句就可以完成数据处理过程;
//设置数据仓库位置
.config("spark.sql.warehouse.dir","e:/tmp/hive")