数据简报&产品生活数据分析idatadesign

浅谈数据质量管理:为了更清醒的数据

2018-04-20  本文已影响51人  idatadesign

做过数据产品的人都会知道,质量高的数据对于产品的意义。笔者在之前曾经历过数据质量管理的具体功能设计,算是较为完整地感受过数据质量管理过程。所以在此简单复盘下经验,借此抛砖引玉。

战战兢兢地写下标题,得意下“清醒”这个词用得真是独树一帜,跟外面那些妖艳贱货好不一样。我们常常说人要时刻保持清醒,这样才能不被假象所蒙蔽。那数据其实更需要这点,我们需要透过数据挖掘本质,如果数据是不具备完整人格的,缺失完整性、规范性、一致性等维度,那么我们看到的本质也是偏差的。开篇先鬼扯一下,详情请往下滑~

基本概念

数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。

为什么有这么多人强调改善数据质量管理的重要性,用一种很抽象的比喻描述,如果把整个数据应用比作人体的话,那好的数据就相当于新鲜和沸腾的血液,能让我们的身体充满活力,高效地工作思考。而质量差的血液携带废物和毒素,随着毒素越积越多,血液以及血管就会发生病变,血液流经的全身各处器官也会大受影响。如果非要要具体的数据证明,我摘取了一些专家的统计:

影响因素

那什么会影响数据质量呢?其实简单就分为2个因素。

在此附上数据的生命周期图,包括各环节的数据流转和数据处理。


评估维度

那怎么样才算质量好的数据呢?借用数据质量评估六要素,顺便附上自己的一些解析:

具体工作

如何通过具体工作来贯彻落实数据质量管理呢?由于数据质量管理是贯穿数据整个生命周期的,所以根据数据的各环节进行分点描述:

数据稽核

(1)定义

数据稽核是指实现数据的完整性和一致性检查,提升数据质量,数据稽核是一个从数据采集,预处理,比对,分析,预警,通知,问题修复的完整数据质量管控链条。

(2)校验规则

(3)校验流程

1、配置校验规则,例如字段映射等。
2、配置调度规则,例如调度频率等。
3、配置报表模板,例如稽核结果等。


数据清洗

(1)定义

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

(2)清洗规则

1)缺失值处理

2)重复值处理

3)异常值处理

4)不一致值处理

5)丢失关联值处理

参考资料

如何保证数据质量?
数据分析师必修课(1)——数据质量评估
浅谈数据质量管理
利用数据质量规则库推动数据质量管理
主数据-数据质量管理
谈数据稽核(3)
中兴软创-数据稽核系统解决方案

重点!速查文档地址请戳此

上一篇 下一篇

猜你喜欢

热点阅读