数仓入门基础-7-数仓规范
2019-07-24 本文已影响0人
乌拉乌拉儿
数仓规范,看似是无关紧要,实则是数仓实施最重要要素,也是衡量数仓标准的重要条件,有了规范,才能尽可能避免一些坑。
1.模型分层
数仓入门基础-5-数仓建模
2.表命名规范
ods层:数据引入层
日志类非结构化表:ods_[数据域]_ [自定义内容]_ [刷新频率]
业务库结构化同步表:ods_[数据域]_ [业务库名]_ [表名]_[刷新频率]
dwd层:明细数据层
dwd_[数据域] _[自定义内容] _[粒度] _[刷新频率]
dws层:公共汇总层
dws_{数据域}_[主题域] _[自定义内容] _[粒度] _[刷新频率]
ads层: 数据应用层
ads_{数据域}_ [自定义内容]_ [粒度]_[刷新频率]
组合标记 | 标记含义 |
---|---|
ma | 按月分区全量更新 |
mi | 按月分区增量更新 |
da | 按天分区全量更新 |
di | 按天分区增量更新 |
ha | 按小时分区全量更新 |
hi | 按小时分区增量更新 |
3.字段规范
3.1命名
- 小写
- 下划线分割
- 可读性优于长度
- 数量字段后缀 _cnt等标识...
- 金额字段后缀 _price 标识
- 禁止使用sql关键字
3.2字段格式
- 浮点数使用decimal(28,6)控制精度等
3.3 NULL字段处理
- 对于维度字段,需设置为-1
- 对于指标字段,需设置为0
4.外部表规范
- 使用hive外部表,避免误操作行为
- 压缩方式,使用orc、parquet文件格式 gz压缩 等
5.口径规范
保证主题域内,指标口径一致,无歧义