拒绝“脏”数据——数据质量评估深入剖析
随着数据呈爆发式地增长,多数传统企业也开始走上了数字化转型的道路。与此同时,数据中蕴藏的商业价值也逐渐被人们挖掘出来。而大数据类的项目都有一个特点:都以数据为核心。数据将作为产生业务价值和实现业务目标的基石,因此,数据质量就成为影响这类项目的一个极其重要的因素。
本文选自《数据治理:工业企业数字化转型之道》一书,将在技术基础上,从数据质量管理的技术指标和业务指标两大部分对数据质量评估进行深入的分析。
image一本数据从业者都需要的工作指南
数据质量评估
互联网、智能手机、可穿戴设备及智能家居的快速普及,使得每一个人和每一台接入互联网的设备都在产生数据,这些数据被相关企业或组织通过合法的渠道收集、存储并加以分析,进而产生价值。
“数据即资产”的概念得到了人们的广泛认同,并且对数据的重视程度被提到前所未有的高度。然而,不是所有的数据都能成为资产,数据的价值与数据质量密切相关。
▼
数据质量是分析和利用数据的前提,是获取数据价值的重要保障。
业界比较通用的方式是基于完整性、一致性、及时性和准确性4个维度来评估数据质量。但如何能真正辅助企业判断数据价值却是一直以来大家都在探讨的问题。
为了应对挑战,各企业逐渐提出了数据管理能力成熟度评估模型以评估数据质量。
其从企业数据的采集、存储及应用等环节进行全方位的评估,并根据该企业数据能力的制度建设、过程监督和管理、组织人员的建设、工具的应用等多个方面进行评分,然后根据评分的结果汇总成数据能力成熟度等级分布。
image数据管理能力成熟度评估模型——数据质量应用范例
通过数据能力成熟度的评估,企业可以更加准确地发现自身存在的问题、与相关企业在数据质量管理和应用方面存在的差异,以及自身的优势,从而明确下一步改进的方向,为数据资产的价值变现和提升奠定了基础。
数据质量问题起因
在企业的实际经营中,引发数据质量问题的因素广泛、复杂,涉及企业的信息系统、组织架构、人员、制度流程、企业文化等。引起数据质量问题的原因有以下几个:
- 公司IT建设:系统建设调整,技术平台升级
- 业务需求:表单设计不科学,数据描述不一致
- 操作水平:企业操作人员技术水平不一
- 控制机制:缺少有效的审核纠错机制
- 应用程序:数据完整性要求被忽略,缺乏全面校验流程
- 数据交换:数据量大,各系统对数据的标准不一致
因为数据的多样化和复杂化,在连续采集、高速存储、有效整合、实时分析、多维度呈现等各方面,都不是通过简单的数据统计分析所能解决的,在此可以使用鱼骨图进行定量问题分析。可以分别在信息系统、流程、技术及人员方面分模块进行分析。
image将数据质量问题形成鱼骨图进行分析
数据质量管理技术指标
数据质量管理技术指标是从技术角度对企业数据进行评估,主要包括以下指标:
image(点击查看大图)
1.唯一性
唯一性是指存储在不同系统中的同一个数据是一致的。此项主要明确企业所有系统中的数据是否一致,是否有重复数据。
2.完整性
完整性是指数据信息不能存在缺失的情况。数据缺失的情况可能是整个数据记载缺失,也可能是数据中某个字段信息的记载缺失。
3.相关性
相关性是指数据之间的关联程度。此项指标主要明确不同数据元之间的数据的关联程度。
4.有效性
有效性是指数据应遵循预定的语法规则的程度,应符合其定义,比如数据的类型、格式、取值范围等。此项指标主要明确企业系统里所有的数据值是否都在对应的字段里。
5.及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。如果数据延时超出统计的要求,则可能导致分析得出的结论失去了意义。此项指标主要明确当需要数据时是否可以即时拿到。
6.非重复记录
非重复记录是指用于度量哪些数据是重复数据或者数据的哪些属性是重复的。此项指标主要明确企业系统中的数据是否存在多个记录表现同一实体的现象。
数据质量管理业务指标
数据质量管理业务指标是从业务角度对企业数据进行评估,主要包括以下指标:
image(点击查看大图)
1.真实性
真实性是指数据库中的实体必须与对应的现实世界中的对象一致,以样本数据的真实数据为衡量标准。
2.精确性
精确性是指数据精度符合业务需要,以样本数据满足业务对精度需求的比率为衡量标准。
3.一致性
一致性是指数据与其他系统(或者系统内部)一致,以样本数据不同存储的匹配率为衡量标准。
4.可理解性
可理解性是指数据含义明确和易于理解,以样本数据易于理解的记录比率为衡量标准。
5.可用性
可用性是指数据可获得,可满足业务使用,以样本数据可获得记录的比率为衡量标准。
相关图书推荐
image image image image