Spark SQL总览

2018-10-13  本文已影响0人  hipeer

概览

Spark SQL是运行在Spark Core之上,用来处理结构化和半结构化数据的一个组件。Spark SQL使用DataFrame(SchemaRDD)/Dataset作为其数据抽象,并充当这些数据的处理引擎。

Spark SQL.png
具体来说, Spark SQL提供了以下三大功能:

Spark SQL的工作原理

如下图:


.png

其中Catalyst阶段是最为重要的,它的作用是把一个逻辑计划转换成可以执行的物理计划(可能生成多个物理计划),然后由Cost Model评估模型来选择最优方案,最后开始执行。

Spark SQL API

Spark SQL & Hive

spark sql with hive.png

包含Hive支持的Spark SQL可以支持Hive表访问,UDF,SerDe(序列化格式和反序列化格式),以及Hive查询语言(HQL)。
SparkSQL使用Hive的Meta Store,但是有自己的的Thrift Server

上一篇下一篇

猜你喜欢

热点阅读