Apache KylinHadoop@IT·互联网

Apache Kylin入门必读:怎么创建一个好Cube?

2017-09-27  本文已影响409人  Kyligence

作者|张逸凡

编辑| Sammi

对Apache Kylin的用户而言,如何设计并构建满足业务分析场景的Cube,是使用Kylin的基本要求。KyBot作为在线诊断、优化及服务的平台,通过分析整合Kylin的日志等信息,为用户提供可视化仪表盘、系统优化、故障排查、技术支持等服务,大大降低了Kylin的维护成本。

本文将介绍KyBot的评分系统,帮助用户调优出一个建立高效可用的Kylin Cube

Cube是OLAP系统用于数据索引、预计算的关键概念。对Apache Kylin的用户而言,如何设计并构建满足业务分析场景的Cube,是使用Kylin的基本要求。随着业务场景和数据特征的演变,用户可能发现最初设计的Cube在查询性能方面开始降低;或者在一些建模场景下,由于复杂查询业务的需要,使得Cube的膨胀率变得很大,而这些问题,都可以通过对Cube调优来解决。

对Kylin进行深度调优,不仅需要对Kylin的运行机制有深入的了解,更需要多种系统运行状态统计特征配合分析Cuboid和RowKey的使用情况,从历史查询模式中找到系统的瓶颈和优化的方向。Kyligence公司为解决Kylin的有效运维问题,设计了KyBot在线服务,提供了相关分析工具,这些工具将极大简化上述问题。KyBot作为在线诊断、优化及服务的平台,通过分析整合Kylin的日志等信息,为用户提供可视化仪表盘、系统优化、故障排查、技术支持等服务,大大降低了Kylin的维护成本。

本文将介绍KyBot的评分系统,帮助用户调优出一个建立高效可用的Kylin Cube。

进入KyBot的Cube调优页面,首先是Cube诊断报告,评分栏中的5维雷达图及各个评分项为Cube健康度给出了打分, 通常来说分数越高,Cube越“健康”。

如图所示,五个维指标分别对应为:

查询性能:评价当前Cube的查询效率,用户需求的重要参考因素之一,主要因子为查询时间中间数等。

使用率:评价当前Cube的访问热度,基于用户的查询行为统计,主要因子为访问此Cube 的查询占总查询访问数量的比重。

膨胀倍数:评价当前Cube的膨胀率,存储和构建方面需要关注的因素,主要因子为Cube数据存储空间。

构建性能:评价Cube的构建时间,也从侧面体现了设计的合理性,有时构建时间过长也是用户的痛点之一。

模型设计:评价使用角度下的Cube设计,结合查询使用记录的综合指标,主要因子为Row Key使用情况、Cuboid重合率,Cuboid匹配率等指标。

同样的情况也出现在CATA1_ID和CATA2_ID组合中,这里可以考虑将他们(YYYY, YYYYMM, CATA1_ID和CATA2_ID)合并为一个联合维度。

还有多个低基数列(LOCATION, TYPE和PIPE_ID)也有重合率高的问题,且没有也没有任何聚合组设置,同样地,也应进行联合维度合并。

基于以上发现,我们就能很快地找到影响评价的原因。

那么是否每个cube的调优目标就是将评分雷达图上的5维提高作为最终目标呢。其实不然,首先,每个因素看似独立,但是实际上相互影响着,比如提高查询效率可能伴随着构建Cube成本的提高。

优化的目的也是取决于用户真正的需求,比如上文中的必要维度设置会对部分查询性能有影响,在用户的查询需求中很少遇到这些查询 ,而且最需要的诉求是降低膨胀率,大可以保留这个必要维度。Cube优化的策略应该随实际需求倾斜,比如在Cube构建速度可以接受的情况下,希望更多地提高查询效率,相应地以稍高的膨胀率为代价有时也能被接受。

反过来说,即使是“满分”的Cube,也并不是表示优化已经到了极致,打分项也均为参考值,高分项也只是说明目前优化的余地相对少一些,如果仍然有调整的需求,继续优化也是可行的。

Cube的评分虽然会随业务发展而变动,而Cube调优就是不断保证Cube性能的有效手段。真正完美的Cube并不存在,设置该评分系统也是为了给用户提供直观的优化建议和参考思路。

作者:

Yifan Zhang(张逸凡)高级软件工程师@Kyligence,专注于大数据平台,物联网和实时数据分析。

上一篇下一篇

猜你喜欢

热点阅读