Carbondata 存储结构

2020-06-21  本文已影响0人  ni_d58f

数据文件结构如下:

image.png image.png

索引文件结构相对比效简单,没有直接画出, 可以直接查看原码(AbstractFactDataWriter#writeIndexFile)

相对Parquet 结构而言,多了一个IndexFile, 不过看了一下源码, Index File 只能对Block级别的列进行索引, 即统计一个Block中每一列的最值, 并通过Btree组织在一起。

总结: 相对于Parquet, ORC等传释统行列混合存储的结构主要有以下改进:

缺点:

  1. 只适合大数据在的数仓存储,如Spark、Hive等,不适合OLAP 查询场景,在这一点在和Parquet等并没有本质区别, 不过就CarbonData的出发点来说,也并不是为OLAP场景使用。 在我看来适合OLAP查询场景的存储结构要满足以下特点:
  1. 支持的执行引擎目前是Hive、Spark, 支持Sink到Flink等, 生态需要进一步加强。
上一篇下一篇

猜你喜欢

热点阅读