spark sql快速入门

2019-11-22  本文已影响0人  松松土_0b13
常用的sql查询引擎

hive,impala,hive on spark,presto(京东),drill(支持hdfs,hive),phoenix(hbase)

存储格式

总体可以认为,在我们当前的数据集和hive版本环境下,在文件写入方面,ORC相比RC文件的优势不显著,一些场合RC文件还要更优,在查询检索方面,ORC则基本是更优的,性能差距大小取决于具体数据集和检索模式。如果Hive能集成ORC更新的版本,支持LZ4,并修复一些Bug,那应该就没有任何再使用RC的理由了。

至于Parquet,可以考虑在需要支持深度嵌套的数据结构的应用场合中去使用

上一篇下一篇

猜你喜欢

热点阅读