DG知识点整理-数据质量
//本系列是基于DMBOK2的学习过程中的知识点整理,方便学习与回顾//
数据质量管理是一项持续性工作,它包括项目和维护工作,以及承诺进行沟通和培训。对组织来说,关注如何管理和提高数据质量是贵关键的变革之一,这种持续性的变革需要组织内各级人员的坚定领导和参与。
一、基础概念
数据质量管理的定义是“为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制管理活动”
1.1 目标
数据治理管理应该关注如下目标
1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;
3)定义和实施测量、监控和报告数据质量水平的过程;
4)通过过程和系统改进,识别提高数据质量的机会
1.2 原则
1)重要性 - 关注对企业和客户最重要的数据
2)全生命周期管理
3)预防 - 重点放在预防数据错误和降低数据可用性上
4)根因修正 - 找到根本原因,并对导致发生的流程和系统进行更改
5)治理 - 通过数据治理活动来支持高质量数据的开发
6)标准驱动 - 治理需要要以可测量的标准形式来定义
7)客观测量和透明度-和利益相关方共同讨论和分享测量过程与方法
8)嵌入业务流程
9)系统强制执行
10)与SLA关联
1.3 数据质量问题的风险
低质量的数据会给组织带来各类风险:会损害组织的声誉,导致罚款、收入损失、客户流失和负面媒体曝光。
1.4 名词解释
1. 数据质量: 它既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。 数据质量取决于场景和消费者需求,如果数据满足数据消费者应用需求的目的,那就是高质量的。
二、人员
2.1 组织文化变革
1)首先要提高组织对数据作的用和重要性的认识;
2)需要让员工理解低质量数据的组织成本和数据质量低下的原因;
3)为员工提供培训和强化训练来确保数据质量
三、领域知识与技术
3.1 数据质量的维度
数据质量维度是指数据的某个可测量的特性。
1. Strong-Wang 框架 - 侧重于数据消费者对数据的看法
1)内在数据质量: 准确性,客观性,可信度,信誉度
2)场景数据质量:增值性;关联性;及时性;完整性;适量性
3)表达数据质量:可解释性;易理解性;表达一致性;简洁性
4)访问数据质量:可访问性;访问安全性
2. Thomas Redman框架 - 将数据项定义为“可表示的三元组”,一个实体属性域与值的集合
1)数据模型:内容;详细程度
2)属性域的精准度:构成;一致性;应变性;数据值;数据表达
3. Larry English的综合指标
1)固有特征:定义一致性,值域的完备性,有效性,数据源准确性...
2)实用特征:可访问性,及时性,语境清晰性,可用性,可整合型,完整性...
4. DAMA UK的6大核心维度
完备性,唯一性,及时性,有效性,准确性,一致性
5. 有普遍一致性的数据质量维度定义
1)准确性(Accuracy):数据表示真实实体的程度;
2)完备性(Completeness):是否存在所有必要的数据;
3)一致性(Consistency):数据值在数据集内和数据集之间表达的相符程度
4)完整性(Integrity): 引用完整性
5)合理性(Reasonability): 数据模式符合预期的程度
6)及时性(Timeliness):反应数据值是否保持最新,它需要根据预期的波动性来理解及时性度量
7)唯一性(Uniqueness): 任何实体不会出现重复
8)有效性(Validity): 数据值与定义的值域一致
6. 数据质量ISO标准
ISO 8000定义了数据供应链中组织可以测试的一些特性,帮助组织使用标准约束数据质量。它对高质量数据的定义是“符合规定要求的可移植数据”。
ISO 22745是定义和交换主数据的标准
3.2 数据质量改进生命周期
常用方法是戴明环-PDCA。
当 有新数据/有新质量标准/现有质量测量值低于阈值时, 就需要启动一个新周期
3.3 数据质量业务规则
数据质量业务规则描述了组织内有用数据和可用数据的存在形式,这些规则用于描述质量要求
常见的业务规则类型包括: 定义一致性;数值存在和记录的完备性;格式符合性,值域匹配性.... 还可能包括聚合检查规则,比如 记录数量的合理性,数值合理性等
3.4 数据质量问题的发生原因
1. 缺乏领导力导致的问题: 领导和员工缺乏意识;缺乏治理;缺乏领导力和管理能力;难以证明改进的合理性;测量价值的工具不合适
2. 数据输入过程引起的问题:输入接口问题;列表条目匹配错误;字段重载;培训问题;业务流程变更;业务流程执行混乱
3. 数据处理功能引起的问题:数据源的错误假设;过时的业务规则;变更的数据结构;
4. 系统设计引起的问题:未执行参照完整性;未执行唯一性约束;
5. 解决问题引起的问题:手动数据修复;未经测试的代码
3.5 数据质量与数据处理活动
数据质量改进工作的重点是防止错误,但也可以通过数据处理来提升质量
1. 数据清理/清洗:检测和纠正数据,使其符合数据标准和域规则
它的手段包括 1-实施控制防止数据输入错误; 2-纠正源系统中的数据;3-改进数据录入的业务流程
2. 数据增强/丰富:给数据集添加属性以提高起质量和可用性的过程
可增加的属性有 时间戳、审计数据、参考词汇表、语境信息、地理信息、人口统计学信息等
3. 数据解析和格式化:使用预定义的规则来解释其内容和值,并重新组织
4. 数据转换和标准化:基于规则将数据值的格式进行转换
四、活动
4.1 定义高质量数据
与数据质量相关的期望并不总是已知的。所以启动数据质量方案之前,需要了解业务需求,定义术语,识别组织的痛点,并就数据质量改进的优先事项达成共识
4.2 定义数据质量战略
采纳或开发一个框架将有助于指导战略和开展战术,同时提供衡量进展和影响的方法,框架还应该考虑如果管理数据质量以及如何使用数据质量工具
4.3 识别关键数据和业务规则
数据质量改进工作通常从主数据开始。
重要性分析结果是一个数据列表
发现和识别业务规则是一个持续的过程,获得规则的最好办法是分享评估结果
4.4 执行初始数据质量评估
步骤如下: 1-定义评估目标; 2-确定要评估的数据; 3-识别数据用途和使用者; 4-识别风险; 5-根据规则检查数据;6-记录问题;7-分析问题;8-同数据管理专员/领域专家/数据消费者讨论,确认问题和优先级; 9-使用调查结果作为规划的基础
4.5 识别改进方向并确定优先级
4.6 定义数据质量改进目标
根据数据质量改进带来业务价值的一致性量化,来设定具体和可实现的目标
4.7 开发和部署数据质量操作
1. 管理数据质量规则
预定义的规则可以 1) 对数据质量特征设定明确的期望; 2)提供防止引入数据问题的控制要求;3)项供应商和外部提供数据质量要求;4)为正在进行的数据质量测量和报告创建基础
2. 测量和监控数据质量
测量的目的是: 1)向数据消费者通报质量水平; 2)管理业务或技术流程,改变引入的变更风险
测量可以在三个粒度级别上:数据集,数据实例或记录,数据元素值
3. 制定管理数据问题的操作过程
诊断问题-->制定补救方案-->解决问题-->实施解决方案
4. 制定数据质量服务水平协议
SLA规定了组织对每个系统中数据质量问题进行响应和补救的期望
5. 编写数据质量报告
数据质量评分卡,数据质量趋势,SLA指标等
五、工具与方法
5.1 工具
1. 数据剖析工具
数据剖析-data profiling是一种用于检查数据和评估质量的数据分析形式。它用统计技术来发现数据集合的真实结构、内容和质量。
它分析 空值、最大/最小值、最大/最小长度、单列的值分布、数据类型和格式。 还做跨列分析,发现重复列。
剖析是理解数据的有效方法,使组织能识别潜在的问题。但解决问题还需要业务流程分析、数据血缘分析和更深入的数据分析等来指出根本原因。
2. 其他
数据查询工具,建模和ETL工具,数据质量规则模版,元数据存储库
5.2 方法
1. 预防措施
建立输入控制;培训数据生产者;定义和执行规则;对供应商的数据质量要求;实施数据治理和管理制度;制定正式的变更控制
2. 纠正措施
1)自动纠正; 2)人工修正
3)人工检查修正: 自动工具纠正后进行人工检查
3. 质量检查和审核代码模块
4. 有效的数据质量指标
指标要满足: 可度量性、业务相关性、可接受性、问责/管理制度、可控制性、趋势分析。
5. 统计过程控制(SPC)
SPC是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。它的假设是一个有一致输入的过程被一致执行时,将产生一致的输出。六西格玛也是SPC的一种
SPC主要工具是控制图
6. 根本原因分析
RCA是一个理解问题发生的因素和作用原理的过程,目的是识别潜在的条件。
常见的RCA技术包括: 帕累托分析、鱼骨图分析、跟踪与追踪、过程分析、五个为什么
六、治理
6.1 数据质量制度
制定数据质量制度,并通过治理制度定期地进行质量审计
6.2 度量指标
1)投资回报; 2)质量水平; 3)数据质量趋势; 4)数据问题管理指标;5)服务水平一致性;6)数据质量技术示意图
参考资料
DAMA-DMBOK2中文版