2019-06-06

2019-06-06  本文已影响0人  AliceGYY

流式数据模型

实时建模跟离线建模非常相似,数据模型整体上分为五层(ODS,DWD,DWS,ADS,DIM)

由于实时计算的局限性,每一层中并没有像离线做得那么宽,维度和指标也没有那么多,特别是涉及回溯状态的指标,在实时数据模型中几乎没有。

整体来看,实时数据模型是离线数据模型的一个子集,在实时数据处理过程中,很多模型设计就是参考离线数据模型实现的。

下面从数据分层、多流关联、维表使用这三个方面来详细说明。

一、数据分层

在流式数据模型中,数据模型整体上分为五层

1.ODS层:直接从业务系统采集过来的最原始的数据

2.DWD层:在ODS层基础上,根据业务过程建模出来的实时事实明细层

3.DWS层:订阅明细层的数据后,会在实时任务中计算各个维度的汇总指标。

4.ADS层:个性化维度汇总层,对于不是特别通用的统计维度数据会放在这一层中,这里只计算只有自身业务才会关注的维度和指标。

5.DIM层:实时维表层的数据基本上都是从离线维表层导出来的,抽取到在线系统中供实时应用调用。

二、多流关联

三、维表使用

(1)全量加载

(2)增量加载

实时数据的处理链路非常长(数据同步——数据计算——数据存储——数据服务)

1.如何进行压测

数据压测主要是蓄洪压测,就是把几个小时甚至几天的数据积累下来,并在某个时刻全部放开。

产品压测还细分为产品本身压测和前端页面稳定性测试。

上一篇下一篇

猜你喜欢

热点阅读