[唯品会]Apache Kylin在唯品会大数据的应用
//
案例分享:Apache Kylin在唯品会大数据的应用
http://mp.weixin.qq.com/s?__biz=MzAwODE3ODU5MA==&mid=2653077752&idx=1&sn=b3afcb70685c8de779a1986256c033b8&chksm=80a4be09b7d3371f5aeaaab2f7fbed3f70d6d4ebfe6f74fd1d9834ac222eb2c8ccb53f61ae83&scene=21#wechat_redirect
“让大数据成为唯品会的增长引擎”,是唯品会大数据团队的slogan。在使用Apache Kylin之前,唯品会在数据分析方面有三个痛点。第一是流程长(反复沟通、排期等待、结果难预测、信息衰减);第二是缺少工具(变更慢、工具少);第三还是缺少工具(重复开发、不可复用)。总结下来,唯品会有两个核心诉求,第一是需要自由的组合维度和指标的平台;第二,即便是大数据量也需要快速获得所需的数据。
唯品会大数据团队选择使用Apache Kylin的原因,首先是利用空间换时间,从原理上已经确保了ad-hoc响应速度达标;支持SQL;支持Dimension-Fact的Join;支持查询重写;对ETL开发来说创建和管理CUBE比较简单,且透明化了MR和HBase同步;可以很方便的在调度系统中调用Kylin API定时刷新CUBE。综上所述麒麟是比较好的解决方案。
谢麟炯讲师还介绍了Apache Kylin的使用情况和他们在唯品会做的改进。还讲述了大数据团队遇到的“坑”,比如HBase维护成本较高;高Cardinality维表反复查询可能撑爆内存;CUBE一旦Build就不可更新定义。
最后,谢麟炯讲师分享了关于实时数据作为OLAP数据源的思考,引发了现场的热烈讨论。
以下是唯品会谢麟炯讲师演讲PPT:
您可能还想看: