[SQL]SparkS/Hive/HBase整合

2016-10-21 本文已影响129人葡萄喃喃呓语

Hive使用Spark on Yarn作为执行引擎 – lxw的大数据田地
http://lxw1234.com/archives/2016/05/673.htm
Hive从1.1之后，支持使用Spark作为执行引擎，配置使用Spark On Yarn作为Hive的执行引擎，首先需要注意以下两个问题：

Hive的版本和Spark的版本要匹配；

SparkSQL读取HBase数据 – lxw的大数据田地
http://lxw1234.com/archives/2015/07/330.htm
通过Hive和spark-sql去访问HBase表，只是为统计分析提供了一定的便捷性，个人觉得性能上的优势并不明显。
可能Spark通过API去读取HBase数据，性能更好些吧，以后再试。
另外，spark-sql有一点好处，就是可以先把HBase中的数据cache到一张内存表中，然后在这张内存表中，
通过SQL去统计分析，那就爽多了。

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数 – lxw的大数据田地
http://lxw1234.com/archives/2015/06/294.htm
Spark1.4发布，除了重量级的SparkR，其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列文章。
在我们的数据平台中，90%以上的离线分析任务都是使用Hive实现，其中必然会使用很多窗口分析函数，如果SparkSQL支持窗口分析函数，
那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低，因此迫不及待将Spark1.4下载试用一下。

[SQL]SparkS/Hive/HBase整合

猜你喜欢

热点阅读