Apache Kylin入门必读：怎么创建一个好Cube？

2017-09-27 本文已影响409人 Kyligence

作者|张逸凡

编辑| Sammi

对Apache Kylin的用户而言，如何设计并构建满足业务分析场景的Cube，是使用Kylin的基本要求。KyBot作为在线诊断、优化及服务的平台，通过分析整合Kylin的日志等信息，为用户提供可视化仪表盘、系统优化、故障排查、技术支持等服务，大大降低了Kylin的维护成本。

本文将介绍KyBot的评分系统，帮助用户调优出一个建立高效可用的Kylin Cube。

Cube是OLAP系统用于数据索引、预计算的关键概念。对Apache Kylin的用户而言，如何设计并构建满足业务分析场景的Cube，是使用Kylin的基本要求。随着业务场景和数据特征的演变，用户可能发现最初设计的Cube在查询性能方面开始降低；或者在一些建模场景下，由于复杂查询业务的需要，使得Cube的膨胀率变得很大，而这些问题，都可以通过对Cube调优来解决。

对Kylin进行深度调优，不仅需要对Kylin的运行机制有深入的了解，更需要多种系统运行状态统计特征配合分析Cuboid和RowKey的使用情况，从历史查询模式中找到系统的瓶颈和优化的方向。Kyligence公司为解决Kylin的有效运维问题，设计了KyBot在线服务，提供了相关分析工具，这些工具将极大简化上述问题。KyBot作为在线诊断、优化及服务的平台，通过分析整合Kylin的日志等信息，为用户提供可视化仪表盘、系统优化、故障排查、技术支持等服务，大大降低了Kylin的维护成本。

本文将介绍KyBot的评分系统，帮助用户调优出一个建立高效可用的Kylin Cube。

进入KyBot的Cube调优页面，首先是Cube诊断报告，评分栏中的5维雷达图及各个评分项为Cube健康度给出了打分，通常来说分数越高，Cube越“健康”。

如图所示，五个维指标分别对应为：

查询性能：评价当前Cube的查询效率，用户需求的重要参考因素之一，主要因子为查询时间中间数等。

使用率：评价当前Cube的访问热度，基于用户的查询行为统计，主要因子为访问此Cube 的查询占总查询访问数量的比重。

膨胀倍数：评价当前Cube的膨胀率，存储和构建方面需要关注的因素，主要因子为Cube数据存储空间。

构建性能：评价Cube的构建时间，也从侧面体现了设计的合理性，有时构建时间过长也是用户的痛点之一。

模型设计：评价使用角度下的Cube设计，结合查询使用记录的综合指标，主要因子为Row Key使用情况、Cuboid重合率，Cuboid匹配率等指标。

同样的情况也出现在CATA1_ID和CATA2_ID组合中，这里可以考虑将他们(YYYY, YYYYMM, CATA1_ID和CATA2_ID)合并为一个联合维度。

还有多个低基数列（LOCATION, TYPE和PIPE_ID）也有重合率高的问题，且没有也没有任何聚合组设置，同样地，也应进行联合维度合并。

基于以上发现，我们就能很快地找到影响评价的原因。

那么是否每个cube的调优目标就是将评分雷达图上的5维提高作为最终目标呢。其实不然，首先，每个因素看似独立，但是实际上相互影响着，比如提高查询效率可能伴随着构建Cube成本的提高。

优化的目的也是取决于用户真正的需求，比如上文中的必要维度设置会对部分查询性能有影响，在用户的查询需求中很少遇到这些查询，而且最需要的诉求是降低膨胀率，大可以保留这个必要维度。Cube优化的策略应该随实际需求倾斜，比如在Cube构建速度可以接受的情况下，希望更多地提高查询效率，相应地以稍高的膨胀率为代价有时也能被接受。

反过来说，即使是“满分”的Cube，也并不是表示优化已经到了极致，打分项也均为参考值，高分项也只是说明目前优化的余地相对少一些，如果仍然有调整的需求，继续优化也是可行的。

Cube的评分虽然会随业务发展而变动，而Cube调优就是不断保证Cube性能的有效手段。真正完美的Cube并不存在，设置该评分系统也是为了给用户提供直观的优化建议和参考思路。

作者：

Yifan Zhang（张逸凡）高级软件工程师@Kyligence，专注于大数据平台，物联网和实时数据分析。

Apache Kylin入门必读：怎么创建一个好Cube？

猜你喜欢

热点阅读