IT语言工具集数据仓库

数仓架构对比

2020-03-26  本文已影响0人  郭彦超

快手数仓

快手目前集群规模有 1500 台左右,作业数量大约是 500 左右,日处理条目数总共有 1.7 万亿,峰值处理条目数大约是 3.7 千万。集群部署都是 On Yarn 模式,分为离线集群和实时集群两类集群,其中离线集群混合部署,资源通过构建不同级别队列进行隔离,实时集群是 Flink 专用集群,针对隔离性、稳定性要求极高的业务部署。

日志实时Join

美团数仓

易企秀数仓

目前集群规模50台,线上资源多集中与离线数据分析,80%处理离线业务,10%资源用来处理数据采集和清洗,剩下的10%资源用于实时任务处理。节假日期间日处理流量10亿+,峰值数据5w/s;其中一些偏底层的计算任务,如数据同步和数据清洗相关任务会放到单独队列运行,以确保数据稳定。

上一篇 下一篇

猜你喜欢

热点阅读