DG知识点整理-数据质量

2023-02-22  本文已影响0人  遥望潇湘

//本系列是基于DMBOK2的学习过程中的知识点整理,方便学习与回顾//

数据质量管理是一项持续性工作,它包括项目和维护工作,以及承诺进行沟通和培训。对组织来说,关注如何管理和提高数据质量是贵关键的变革之一,这种持续性的变革需要组织内各级人员的坚定领导和参与。

一、基础概念

数据质量管理的定义是“为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制管理活动”

    1.1 目标

        数据治理管理应该关注如下目标

        1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;

        2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;

        3)定义和实施测量、监控和报告数据质量水平的过程;

        4)通过过程和系统改进,识别提高数据质量的机会

    1.2 原则

        1)重要性 - 关注对企业和客户最重要的数据

        2)全生命周期管理

        3)预防 - 重点放在预防数据错误和降低数据可用性上

        4)根因修正 - 找到根本原因,并对导致发生的流程和系统进行更改

        5)治理 - 通过数据治理活动来支持高质量数据的开发

        6)标准驱动 - 治理需要要以可测量的标准形式来定义

        7)客观测量和透明度-和利益相关方共同讨论和分享测量过程与方法

        8)嵌入业务流程

        9)系统强制执行

        10)与SLA关联

    1.3  数据质量问题的风险

        低质量的数据会给组织带来各类风险:会损害组织的声誉,导致罚款、收入损失、客户流失和负面媒体曝光。

    1.4 名词解释

            1. 数据质量: 它既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。 数据质量取决于场景和消费者需求,如果数据满足数据消费者应用需求的目的,那就是高质量的。

二、人员

    2.1 组织文化变革

        1)首先要提高组织对数据作的用和重要性的认识;

        2)需要让员工理解低质量数据的组织成本和数据质量低下的原因;

        3)为员工提供培训和强化训练来确保数据质量

三、领域知识与技术

    3.1 数据质量的维度

        数据质量维度是指数据的某个可测量的特性。

        1. Strong-Wang 框架 - 侧重于数据消费者对数据的看法

                1)内在数据质量: 准确性,客观性,可信度,信誉度

                2)场景数据质量:增值性;关联性;及时性;完整性;适量性

                3)表达数据质量:可解释性;易理解性;表达一致性;简洁性

                4)访问数据质量:可访问性;访问安全性

        2. Thomas Redman框架 - 将数据项定义为“可表示的三元组”,一个实体属性域与值的集合

                1)数据模型:内容;详细程度

                2)属性域的精准度:构成;一致性;应变性;数据值;数据表达    

        3. Larry English的综合指标

                1)固有特征:定义一致性,值域的完备性,有效性,数据源准确性...

                2)实用特征:可访问性,及时性,语境清晰性,可用性,可整合型,完整性...

        4. DAMA UK的6大核心维度

                完备性,唯一性,及时性,有效性,准确性,一致性

        5. 有普遍一致性的数据质量维度定义

            1)准确性(Accuracy):数据表示真实实体的程度;

            2)完备性(Completeness):是否存在所有必要的数据;

            3)一致性(Consistency):数据值在数据集内和数据集之间表达的相符程度

            4)完整性(Integrity): 引用完整性

            5)合理性(Reasonability): 数据模式符合预期的程度

            6)及时性(Timeliness):反应数据值是否保持最新,它需要根据预期的波动性来理解及时性度量

            7)唯一性(Uniqueness): 任何实体不会出现重复

            8)有效性(Validity): 数据值与定义的值域一致

        6. 数据质量ISO标准

            ISO 8000定义了数据供应链中组织可以测试的一些特性,帮助组织使用标准约束数据质量。它对高质量数据的定义是“符合规定要求的可移植数据”。

            ISO 22745是定义和交换主数据的标准

    3.2 数据质量改进生命周期

        常用方法是戴明环-PDCA。

        当 有新数据/有新质量标准/现有质量测量值低于阈值时, 就需要启动一个新周期

    3.3 数据质量业务规则

        数据质量业务规则描述了组织内有用数据和可用数据的存在形式,这些规则用于描述质量要求

       常见的业务规则类型包括: 定义一致性;数值存在和记录的完备性;格式符合性,值域匹配性.... 还可能包括聚合检查规则,比如 记录数量的合理性,数值合理性等

    3.4 数据质量问题的发生原因

        1. 缺乏领导力导致的问题: 领导和员工缺乏意识;缺乏治理;缺乏领导力和管理能力;难以证明改进的合理性;测量价值的工具不合适

        2. 数据输入过程引起的问题:输入接口问题;列表条目匹配错误;字段重载;培训问题;业务流程变更;业务流程执行混乱

        3. 数据处理功能引起的问题:数据源的错误假设;过时的业务规则;变更的数据结构;

        4. 系统设计引起的问题:未执行参照完整性;未执行唯一性约束;

        5. 解决问题引起的问题:手动数据修复;未经测试的代码

   3.5 数据质量与数据处理活动

        数据质量改进工作的重点是防止错误,但也可以通过数据处理来提升质量

        1. 数据清理/清洗:检测和纠正数据,使其符合数据标准和域规则

            它的手段包括 1-实施控制防止数据输入错误; 2-纠正源系统中的数据;3-改进数据录入的业务流程

        2. 数据增强/丰富:给数据集添加属性以提高起质量和可用性的过程

            可增加的属性有 时间戳、审计数据、参考词汇表、语境信息、地理信息、人口统计学信息等

        3. 数据解析和格式化:使用预定义的规则来解释其内容和值,并重新组织

        4. 数据转换和标准化:基于规则将数据值的格式进行转换

四、活动

    4.1 定义高质量数据

        与数据质量相关的期望并不总是已知的。所以启动数据质量方案之前,需要了解业务需求,定义术语,识别组织的痛点,并就数据质量改进的优先事项达成共识

    4.2 定义数据质量战略

        采纳或开发一个框架将有助于指导战略和开展战术,同时提供衡量进展和影响的方法,框架还应该考虑如果管理数据质量以及如何使用数据质量工具

    4.3 识别关键数据和业务规则

        数据质量改进工作通常从主数据开始。 

        重要性分析结果是一个数据列表

        发现和识别业务规则是一个持续的过程,获得规则的最好办法是分享评估结果

    4.4 执行初始数据质量评估

         步骤如下: 1-定义评估目标; 2-确定要评估的数据; 3-识别数据用途和使用者; 4-识别风险; 5-根据规则检查数据;6-记录问题;7-分析问题;8-同数据管理专员/领域专家/数据消费者讨论,确认问题和优先级; 9-使用调查结果作为规划的基础

    4.5 识别改进方向并确定优先级

    4.6 定义数据质量改进目标

            根据数据质量改进带来业务价值的一致性量化,来设定具体和可实现的目标

    4.7 开发和部署数据质量操作

        1. 管理数据质量规则

            预定义的规则可以 1) 对数据质量特征设定明确的期望; 2)提供防止引入数据问题的控制要求;3)项供应商和外部提供数据质量要求;4)为正在进行的数据质量测量和报告创建基础

        2. 测量和监控数据质量

            测量的目的是: 1)向数据消费者通报质量水平; 2)管理业务或技术流程,改变引入的变更风险

            测量可以在三个粒度级别上:数据集,数据实例或记录,数据元素值

        3. 制定管理数据问题的操作过程

            诊断问题-->制定补救方案-->解决问题-->实施解决方案

        4. 制定数据质量服务水平协议

            SLA规定了组织对每个系统中数据质量问题进行响应和补救的期望

        5. 编写数据质量报告

            数据质量评分卡,数据质量趋势,SLA指标等

五、工具与方法

    5.1 工具

            1. 数据剖析工具

                数据剖析-data profiling是一种用于检查数据和评估质量的数据分析形式。它用统计技术来发现数据集合的真实结构、内容和质量。

                它分析 空值、最大/最小值、最大/最小长度、单列的值分布、数据类型和格式。 还做跨列分析,发现重复列。

                剖析是理解数据的有效方法,使组织能识别潜在的问题。但解决问题还需要业务流程分析、数据血缘分析和更深入的数据分析等来指出根本原因。   

            2. 其他

                数据查询工具,建模和ETL工具,数据质量规则模版,元数据存储库

    5.2 方法

            1. 预防措施

                建立输入控制;培训数据生产者;定义和执行规则;对供应商的数据质量要求;实施数据治理和管理制度;制定正式的变更控制

            2. 纠正措施

                1)自动纠正; 2)人工修正

                3)人工检查修正: 自动工具纠正后进行人工检查

            3. 质量检查和审核代码模块

            4. 有效的数据质量指标

                 指标要满足: 可度量性、业务相关性、可接受性、问责/管理制度、可控制性、趋势分析。

            5. 统计过程控制(SPC)

                SPC是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。它的假设是一个有一致输入的过程被一致执行时,将产生一致的输出。六西格玛也是SPC的一种

                SPC主要工具是控制图

            6. 根本原因分析

                RCA是一个理解问题发生的因素和作用原理的过程,目的是识别潜在的条件。

                常见的RCA技术包括: 帕累托分析、鱼骨图分析、跟踪与追踪、过程分析、五个为什么

六、治理

   6.1 数据质量制度

        制定数据质量制度,并通过治理制度定期地进行质量审计

    6.2 度量指标

        1)投资回报; 2)质量水平; 3)数据质量趋势; 4)数据问题管理指标;5)服务水平一致性;6)数据质量技术示意图


参考资料

DAMA-DMBOK2中文版

上一篇下一篇

猜你喜欢

热点阅读