SparkDataAn

流量域数据治理

2021-08-30  本文已影响0人  冰菓_

1. 埋点规范

埋点数据不应该分布在各个业务方的手中,应该统一管理,统一格式,前端工程师不仅要管业务还要管对错.埋点数据要规范坑位,在电商领域对埋点规范采用SPM.SCM那套,事实上应该对埋点有一个评审环节,埋点是否有无必要?

2. 数据资产沉淀

  1. 数据孤岛
  2. 底层数据的稳定性
  3. 数据质量
  4. 轻度汇总和重度汇总要有相对明确的定义

一份数据一个出口,一个口径,数仓的过程是熵减的过程,从无序到有序

解耦

例如是从dwd层汇总最近30天数据到dws层,如果是几十万DAU就没啥问题,但是面对超大的业务,可能一个早上还跑不完,数据耦合性非常强,直接性的影响数据的产出时间

  1. 模型设计的解耦
  2. 增量数据和全量数据的解耦

3. 服务和自助

一切的规范,文档落地之后,要建立一个自助的平台,才能统一规范
数据使用方统一从自助平台拿取数据

上一篇下一篇

猜你喜欢

热点阅读