Spark之没什么卵用笔记1之Spark SQL背景

2018-10-16 本文已影响0人没什么卵用的杂鱼

前段时间买的《Spark SQL内核剖析》,这两天开始读，记些笔。笔记内容纯属本人YY，如有错误与书的作者无关。

因为没接触过Shark，因此这里就简单带过一下Spark SQL的背景吧。Spark SQL的前身是Shark, 又叫"Hive On Spark" 。Shark通过将hive SQL转换成RDD的代码，运行在Spark上。随着Spark的发展，Shark对Hive代码的依赖（SQL解析，生成逻辑计划等等都是用的hive的实现）制约了SQL在Spark上的发展，于是抛弃了Shark，吸收了Shark的优点，整了个Spark SQL出来。

Spark SQL中有两个重要的数据结构，DataFrame 与 Dataset。以前编写的Spark的程序（使用类似textfile、map、reduceByKey这些API，称之为RDD编程），而Spark SQL则是基于DataFrame与Dataset编程。

Spark之没什么卵用笔记1之Spark SQL背景

猜你喜欢

热点阅读