流量域数据治理
2021-08-30 本文已影响0人
冰菓_
1. 埋点规范
埋点数据不应该分布在各个业务方的手中,应该统一管理,统一格式,前端工程师不仅要管业务还要管对错.埋点数据要规范坑位,在电商领域对埋点规范采用SPM.SCM那套,事实上应该对埋点有一个评审环节,埋点是否有无必要?
2. 数据资产沉淀
- 数据孤岛
- 底层数据的稳定性
- 数据质量
- 轻度汇总和重度汇总要有相对明确的定义
一份数据一个出口,一个口径,数仓的过程是熵减的过程,从无序到有序
解耦
例如是从dwd层汇总最近30天数据到dws层,如果是几十万DAU就没啥问题,但是面对超大的业务,可能一个早上还跑不完,数据耦合性非常强,直接性的影响数据的产出时间
- 模型设计的解耦
- 增量数据和全量数据的解耦
3. 服务和自助
一切的规范,文档落地之后,要建立一个自助的平台,才能统一规范
数据使用方统一从自助平台拿取数据