大数据解决方案 Apache Kylin 大数据

[唯品会]Apache Kylin在唯品会大数据的应用

2017-02-08 本文已影响261人葡萄喃喃呓语

//
案例分享：Apache Kylin在唯品会大数据的应用
http://mp.weixin.qq.com/s?__biz=MzAwODE3ODU5MA==&mid=2653077752&idx=1&sn=b3afcb70685c8de779a1986256c033b8&chksm=80a4be09b7d3371f5aeaaab2f7fbed3f70d6d4ebfe6f74fd1d9834ac222eb2c8ccb53f61ae83&scene=21#wechat_redirect

“让大数据成为唯品会的增长引擎”，是唯品会大数据团队的slogan。在使用Apache Kylin之前,唯品会在数据分析方面有三个痛点。第一是流程长（反复沟通、排期等待、结果难预测、信息衰减）；第二是缺少工具（变更慢、工具少）；第三还是缺少工具（重复开发、不可复用）。总结下来，唯品会有两个核心诉求，第一是需要自由的组合维度和指标的平台；第二，即便是大数据量也需要快速获得所需的数据。

唯品会大数据团队选择使用Apache Kylin的原因，首先是利用空间换时间，从原理上已经确保了ad-hoc响应速度达标；支持SQL；支持Dimension-Fact的Join；支持查询重写；对ETL开发来说创建和管理CUBE比较简单，且透明化了MR和HBase同步；可以很方便的在调度系统中调用Kylin API定时刷新CUBE。综上所述麒麟是比较好的解决方案。

谢麟炯讲师还介绍了Apache Kylin的使用情况和他们在唯品会做的改进。还讲述了大数据团队遇到的“坑”，比如HBase维护成本较高；高Cardinality维表反复查询可能撑爆内存；CUBE一旦Build就不可更新定义。

最后，谢麟炯讲师分享了关于实时数据作为OLAP数据源的思考，引发了现场的热烈讨论。

以下是唯品会谢麟炯讲师演讲PPT：

您可能还想看：

上一篇下一篇

猜你喜欢

热点阅读