大数据,机器学习,人工智能大数据 爬虫Python AI Sql玩转大数据

数仓构建流程

2020-05-06  本文已影响0人  哦了马

1.首先进行数据相关的调研,主要包含业务调研和需求分析,通过业务调研来把握可以实现哪些需求,哪些需求目前业务方面的数据无法满足,这些都是可以获知的。

2.构建总线矩阵,这里需要明确三个方面:明确业务过程中所属的数据域;明确维度和业务过程的关系;明确原子指标和派生指标。

3.进行明细模型设计,主要是构建维度模型和明细事实表模型设计,以及确定双重粒度的cdm模型。

4.最后再进行数仓优化及相关的数据验证。

附数仓中各个层级的命名方式

ods层: ods_来源库_来源表名(_delta)

edw层:edw_主题域_表名(_delta)

cdm层:cdm_主题域_表_(dd&ds…)

adm层:adm_主题域_表名_(dd&ds…)

备注: _delta表示是否为增量表

        _dd 表示日明细

        _ds 表示按天汇总

        _ww 表示周明细

        _ws 表示周汇总

        _mm表示月明细

        _ms表示月汇总

        _qq表示季度明细

        _qs表示季度汇总

          _yy 表示年度明细

          _ys表示年度汇总

另外_ndd表示n天的明细或者汇总,n周n月n季度n年类似。

上一篇 下一篇

猜你喜欢

热点阅读