数据质量管理
2022-02-23 本文已影响0人
reco171
- 前提。
大数据时代,数据产生的价值越来越大,探索与数据相关的开发技术、应用场景和商业模式,最终目的就是挖掘数据价值,推动业务发展。而只有高质量的数据才能够真正意义上实现数据价值的最大化,没有数据治理,没有数据质量的保证,再多的业务和技术的投入,都可能是徒劳的。 - 背景
公司经过多年信息化系统建设和应用,积累了大量的数据信息, 这些数据已然成为公司的核心资源之一。搭建数据平台,将企业运营数据以主题的形式整理,以服务的方式向数据使用方提供数据服务,促进数据在企业内部共享流通,外部开放,提高数据利用率。
为快速解决现有系统中存在的字段空值率高、数据异常、表字段命名混乱等问题,在数据服务平台中规划数据质量管理模块,快速定位问题数据,自动的对数据进行定期巡检,发现数据中存在的问题,输出数据质量报告。为不断提升数据质量,为后续的数据分析提供有效的数据基础。 - 数据质量管理环节
在数据全生命周期管理中都要进行数据质量管理,具体如下:
(1)数据规划。从企业战略的角度不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。
(2)数据设计。推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。
(3)数据创建。利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。
(4)数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据输入端的正确性;数据质量提供了事前预防、事中预警、事后补救的三个方面措施,形成完整的数据治理体系 - 建立数据质量体系及度量标准
企业缺乏数据战略将导致脏数据、冗余数据、数据不一致、无法整合、性能底下、可用性差、责任缺失、用户日益不满意IT的性能。建立完善的数据质量检查体系显得尤为重要。
基于数据质量检查体系,通过不同的维度管理我们的数据质量,通常可以从以下几个维度进行衡量。
| 指标分类 | 指标名称 | 指标标准定义 |
|---|---|---|
| 完整性 | 非空检查 | 必须的数据项已经被记录 |
| 外键检查 | 数据符合主键与外键之间的关系 | |
| 唯一性 | 唯一检查 | 数据记录的主键唯一或者实体唯一 |
| 有效性 | 取值范围检查 | 该数据取值大小在合理范围内 |
| 长度检查 | 该数据取值长度在合理范围内 | |
| 内容规范检查 | 数据内容规范 | |
| 一致性 | 一致性检查 | 数据正确体现了真实情况,并且数据精度满足业务要求的精度,包括等值一致性、存在一致性、逻辑一致性等 |
| 准确性 | 准确性检查 | 记录中存在错误,如字符型数据乱码,还有异常数值:异常大或小的数值、不符合有效性要求数值等 |
| 及时性 | 及时检查 | 数据被及时更新以体现当前事实 |
| 自定义 | 自定义 | 自定义SQL开发不能满足需求的检核指标 |
参考:
[1]数据质量管理
[2]人人都能玩转数据
[3]数据治理系列5:浅谈数据质量管理
[4]数据质量六大评价标准
[5]数据质量的评估标准:完整性、一致性、准确性、及时性