数据仓库—数据治理

2022-02-24  本文已影响0人  大数据技术派

数据仓库系列文章(部分已出,持续更新)

  1. 数仓架构发展史
  2. 数仓建模方法论
  3. 数仓建模分层理论
  4. 数仓建模—宽表的设计
  5. 数仓建模—指标体系
  6. 数据仓库之拉链表
  7. 数仓—数据集成
  8. 数仓—数据集市
  9. 数仓—商业智能系统
  10. 数仓—埋点设计与管理
  11. 数仓—ID Mapping
  12. 数仓—OneID
  13. 数仓—AARRR海盗模型
  14. 数仓—总线矩阵
  15. 数仓—数据安全
  16. 数仓—数据质量
  17. 数仓—数仓建模和业务建模

数据治理

数据治理(Data Governance),是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核流程等内容。

统一流程参考模型

image-20201205183104040

为什么要治理

image-20201205183119801

数据质量层次不齐

数据交换和共享困难

打通各个业务线之间的数据建设,很多公司都是统一建设

缺乏有效的管理机制

存在数据安全隐患

发现问题严重滞后

影响不清晰

DMBOK的数据治理框架

注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。

image-20201205183235954

数据控制:在数据管理和使用层面之上进行规划、监督和控制。

数据架构管理:定义数据资产管理蓝图。

数据开发:数据的分析、设计、实施、测试、部署、维护等工作。

数据操作管理:提供从数据获取到清除的技术支持。

数据安全管理:确保隐私、保密性和适当的访问权限等。

数据质量管理:定义、监测和提高数据质量。

参考数据和主数据管理:管理数据的黄金版本和副本。

数据仓库和商务智能管理:实现报告和分析。

文件和内容管理:管理数据库以外的数据

元数据管理:元数据的整合、控制以及提供元数据。

数仓治理

这个是一个长期的工作,类似于代码重构

治理的分类

粗治理

细治理

专项性质的治理方案,主要针对有人负责的项目

数据源治理

数据源管理

数据源监控

数据同步

数仓模型治理

数据划分及命名空间约定

表的命名就涉及到数据域的划分,因为表的命名需要将数据域囊括进去

常规表的命名
中间表

统一指标和字段命名

公共处理逻辑下沉及单一

核心模型与扩展模型分离

层次调用约定

垃圾的数仓就会出现大量的跨层调用,所以可以通过跨层调用ods 表率来衡量数仓的建设

组合原则

相关性强是指经常需要一起查询或进行报表展现、两个维度属性间是否存在天然的关系等。例如,商品基本属性和所属品牌。

数据拆分

数据的水平和垂直拆分是按照访问热度分布和数据表非空数据值、零数据值在行列二维空间上分布情况进行划分的。

核心表

数据冗余

sql 规范

任务注释
sql 模板

数据服务治理

报表治理

接口治理

上下游约定

上游约定

表结构变更
枚举值
create_time & update_time
is_delete & is_valid

下游约定

数仓评价(如何评价一个数据仓库的好坏)

image-20210905100559380

其实对整个数仓而言,我们关注的就三个点,准确性、时效性、稳定性

面试官说这些都是一些原则,比较虚,有没有可衡量的指标?就是一个数据仓库建好了,用这些指标评价它好不好,有不好的要指出来,指导它改进。

指标项

  1. 失败的离线任务个数
  2. 没有按时完成的任务个数
  3. ODS 同步超时的任务个数

数据准确性

时效性

覆盖性

我们主要指的是对数据域的覆盖情况

建构层次清晰

数据准确一致

性能指标

需要持续不断的业务逻辑重构,是整体的sql 水平上升,提倡优化精神

成本指标

易用性指标

通过冗余维度和事实表,进行公共计算逻辑下沉,明细与汇总共存等为业务提供灵活性

需求响速度

数仓建设的好,底层设施完善,报表开发人员就可以快速响应业务方的需求,跟上业务方快速试错、快速尝试的节奏

稳定性

稳定性影响了时效性,也就是决定了我们的数据能不能按时产出,衡量稳定性的方式,我们可以使用三个9,或者四个9,甚至是用每天失败的任务数除以总的任务数,我们的主要目标是得出一个相对合理的指标,从而不断的去优化它。

总结

  1. 数据治理和代码重构一样,是一个慢活,但是它不能不做,因为数据治理可以提高整个数仓的管理效率,从而更好的服务业务
  2. 数据治理需要一些数据去指导,同理它的成果需要从数据方面去衡量,所以在整个过程中需要数据去证明它的价值与意义
  3. 数仓本身也需要自身的指标去衡量,我们可以通过数据治理,使得数仓的指标得到改善,这样我们也可以证明数据治理的意义。

知识星球

其实知识星球我以前就建立了,当时觉得自己没有那么多的精力维护,不能很好的帮助有需要的同学们,所以一直没有开放。最近很多同学私聊我学习路线,个人精力也是有限,并不能及时解答所有同学的问题。
通过调查,大部分同学表示愿意加入知识星球,我也觉得这样让大家的提问更加有层次和意义,而不是问一些比较肤浅和不太合适的问题,有问题也能自己先查询一下,这样更好的交流和解答疑问,提升时间利用率。
点此加入

上一篇 下一篇

猜你喜欢

热点阅读