spark之旅-4.spark-sql

2022-03-01 本文已影响0人笨鸡
Spark-SQL

Spark-SQL，思维导图
Spark-SQL:
    起点:
        SparkSession
    数据集:
        RDD
        DataFrame
        DataSet
    语法:
        SQL 语法
        DSL 语法
    转化:
        RDD <-> DataFrame :
                    rdd.toDF
                    df.rdd
        RDD <-> DataSet  :
                    rdd.toDS Case 类
                    ds.rdd
        DataFrame<-> DataSet :
                    df.as
                    ds.toDF
    函数:
        SQL 函数
        UDF ：
                    Scala spark.udf.register("addName",(x:String)=> "Name:"+x)
                    Java spark.udf().register("addName", (UDF1<String, String>) s -> "name: " + s, DataTypes.StringType);
                    spark.sql("Select addName(name),age from people").show()
        UDAF ：
                    UserDefinedAggregateFunction  弱类型   （过时）
                    Aggregator  强类型
        开窗函数

    加载和保存:
        加载数据：
                    spark.read.format("…")[.option("…")].load("…")
        保存数据：
                    df.write.format("…")[.option("…")].save("…")
        数据格式：
                    Parquet
                    JSON
                    CSV
                    MySQL
                    Hive （内置与外置）：
                        Spark SQL CLI
                        Spark beeline
spark之旅-4.spark-sql

Spark-SQL

猜你喜欢

热点阅读