2019-06-06
2019-06-06 本文已影响0人
AliceGYY
流式数据模型
实时建模跟离线建模非常相似,数据模型整体上分为五层(ODS,DWD,DWS,ADS,DIM)
由于实时计算的局限性,每一层中并没有像离线做得那么宽,维度和指标也没有那么多,特别是涉及回溯状态的指标,在实时数据模型中几乎没有。
整体来看,实时数据模型是离线数据模型的一个子集,在实时数据处理过程中,很多模型设计就是参考离线数据模型实现的。
下面从数据分层、多流关联、维表使用这三个方面来详细说明。
一、数据分层
在流式数据模型中,数据模型整体上分为五层
1.ODS层:直接从业务系统采集过来的最原始的数据
2.DWD层:在ODS层基础上,根据业务过程建模出来的实时事实明细层
3.DWS层:订阅明细层的数据后,会在实时任务中计算各个维度的汇总指标。
4.ADS层:个性化维度汇总层,对于不是特别通用的统计维度数据会放在这一层中,这里只计算只有自身业务才会关注的维度和指标。
5.DIM层:实时维表层的数据基本上都是从离线维表层导出来的,抽取到在线系统中供实时应用调用。
二、多流关联
三、维表使用
(1)全量加载
(2)增量加载
实时数据的处理链路非常长(数据同步——数据计算——数据存储——数据服务)
1.如何进行压测
数据压测主要是蓄洪压测,就是把几个小时甚至几天的数据积累下来,并在某个时刻全部放开。
产品压测还细分为产品本身压测和前端页面稳定性测试。