spark之旅-4.spark-sql

2022-03-01  本文已影响0人  笨鸡

Spark-SQL

Spark-SQL,思维导图

Spark-SQL:
    起点:
        SparkSession
    数据集:
        RDD
        DataFrame
        DataSet
    语法:
        SQL 语法
        DSL 语法
    转化:
        RDD <-> DataFrame :
                    rdd.toDF
                    df.rdd
        RDD <-> DataSet  :
                    rdd.toDS Case 类
                    ds.rdd
        DataFrame<-> DataSet :
                    df.as
                    ds.toDF
    函数:
        SQL 函数
        UDF :
                    Scala spark.udf.register("addName",(x:String)=> "Name:"+x)
                    Java spark.udf().register("addName", (UDF1<String, String>) s -> "name: " + s, DataTypes.StringType);
                    spark.sql("Select addName(name),age from people").show()
        UDAF :
                    UserDefinedAggregateFunction  弱类型   (过时)
                    Aggregator  强类型
        开窗函数

    加载和保存:
        加载数据:
                    spark.read.format("…")[.option("…")].load("…")
        保存数据:
                    df.write.format("…")[.option("…")].save("…")
        数据格式:
                    Parquet
                    JSON
                    CSV
                    MySQL
                    Hive (内置与外置):
                        Spark SQL CLI
                        Spark beeline
上一篇下一篇

猜你喜欢

热点阅读