spark之旅-4.spark-sql
2022-03-01 本文已影响0人
笨鸡
Spark-SQL
Spark-SQL,思维导图
Spark-SQL:
起点:
SparkSession
数据集:
RDD
DataFrame
DataSet
语法:
SQL 语法
DSL 语法
转化:
RDD <-> DataFrame :
rdd.toDF
df.rdd
RDD <-> DataSet :
rdd.toDS Case 类
ds.rdd
DataFrame<-> DataSet :
df.as
ds.toDF
函数:
SQL 函数
UDF :
Scala spark.udf.register("addName",(x:String)=> "Name:"+x)
Java spark.udf().register("addName", (UDF1<String, String>) s -> "name: " + s, DataTypes.StringType);
spark.sql("Select addName(name),age from people").show()
UDAF :
UserDefinedAggregateFunction 弱类型 (过时)
Aggregator 强类型
开窗函数
加载和保存:
加载数据:
spark.read.format("…")[.option("…")].load("…")
保存数据:
df.write.format("…")[.option("…")].save("…")
数据格式:
Parquet
JSON
CSV
MySQL
Hive (内置与外置):
Spark SQL CLI
Spark beeline