数仓各层的开发规范

2022-03-20  本文已影响0人  Sunshine_6cb2

ODS层设计规范

同步规范

表分类和生命周期

ODS流水全量表

ODS镜像全量表

ODS增量数据

ODS ETL过程中的临时表

BDSync 非去重数据

数据质量

  1. 全量表必须配置唯一性字段标识
  2. 对分区空数据进行监控
  3. 对枚举类型字段进行枚举变化和分布监控
  4. ODS表数据量级和记录数做环比监控
  5. ODS全表必须要有注释

公共维度层的设计规范

设计准侧

一致性

公共维度在不同的物理表中的字段名称、数据类型、数据内容必须保持一致

维度的组合和拆分

将维度与关联性强的字段进行组合,一起查询,一起展示,两个维度必须具有天然的关系,如:商品的基本属性和所属品牌。
无相关性:如一些使用频率较小的杂项维度,可以构建一个集合杂项维度的特殊属性。
行为维度:经过计算的度量,但下游当维度处理,例:点击量 0-1000,100-1000等,可以做聚合分类。

针对重要性,业务相关性、源、使用频率等可分为核心表、扩展表。 数据记录较大的维度,可以适当冗余一些子集

存储及生命周期管理

  1. 3 个月内最大访问跨度<=4 天时,建议保留最近 7 天分区;
  2. 3 个月内最大访问跨度<=12 天时,建议保留最近 15 天分区;
  3. 3 个月内最大访问跨度<=30 天时,建议保留最近 33 天分区;
  4. 3 个月内最大访问跨度<=90 天时,建议保留最近 120 天分区;
  5. 3 个月内最大访问跨度<=180 天时,建议保留最近 240 天分区;
  6. 3 个月内最大访问跨度<=300 天时,建议保留最近 400 天分区;

DWD明细层的设计规范

存储及生命周期管理

建议按天分区。

  1. 3 个月内最大访问跨度<=4 天时,建议保留最近 7 天分区;
  2. 3 个月内最大访问跨度<=12 天时,建议保留最近 15 天分区;
  3. 3 个月内最大访问跨度<=30 天时,建议保留最近 33 天分区;
  4. 3 个月内最大访问跨度<=90 天时,建议保留最近 120 天分区;
  5. 3 个月内最大访问跨度<=180 天时,建议保留最近 240 天分区;
  6. 3 个月内最大访问跨度<=300 天时,建议保留最近 400 天分区;

**事务型事实表设计准则 **

周期快照事实表

累积快照事实表

DWS公共层的设计规范

数据仓库的性能是数据仓库建设是否成功的重要标准之一。聚集主要是通过汇总明细粒度数据来获得改进查询性能的效果。通过访问聚集数据,可以减少数据库在响应查询时必须执行的工作量,能够快速响应用户的查询,同时有利于减少不同用访问明细数据带来的结果不一致问题。

聚集的基本原则

聚集的基本步骤

第一步:确定聚集维度

在原始明细模型中会存在多个描述事实的维度,如日期、商品类别、卖家等,这时候需要确定根据什么维度聚集,如果只关心商品的交易额情况,那么就可以根据商品维度聚集数据。

第二步:确定一致性上钻

这时候要关心是按月汇总还是按天汇总,是按照商品汇总还是按照类目汇总,如
果按照类目汇总,还需要关心是按照大类汇总还是小类汇总。当然,我们要做的
只是了解用户需要什么,然后按照他们想要的进行聚集。

第三步:确定聚集事实

在原始明细模型中可能会有多个事实的度量,比如在交易中有交易额、交易数量
等,这时候要明确是按照交易额汇总还是按照成交数量汇总。
公共汇总层设计原则
除了聚集基本的原则外,公共汇总层还必须遵循以下原则:

上一篇 下一篇

猜你喜欢

热点阅读