第1章《低劣数据质量的业务影响》
开始之前,先来拆解一下章节题目,看看都有些什么。按照顺序,基本上可以拆出“低劣数据”、“数据”、“数据质量”、“业务影响”这几个关键词来,在每一个词的后边加上一个“是什么”就又可以各自追问出一个问题来,再考虑到不同关键词之间的关系又会有新的问题提出。剔除掉显而易见的和无意义的问题之后,还剩下如下三个问题:
1.数据质量是什么?
2.业务影响具体是指什么?
3.数据质量通过怎样的方式与业务影响发生联系?
暂且抛开这些问题,看看书里都说了什么样的内容。
“当今多数组织以两种基本方式使用数据:一是,标准业务流程(Standard Business Processes)使用数据执行事务处理,支持日常业务活动;二是,业务分析师(Business Analysts)通过报告和分析引擎考察日常运营结果数据,作为识别新的增长机会。”——数据通常被用来支撑常规业务活动,提升业务绩效。
如此,就必须有合适的流程来确保数据具有相当的质量以满足业务需求。
但是,数据的价值往往是从错误数据或者说是低劣数据对业务造成的损失中体现出来的,因此,“任何企业的风险管理计划,如果整合了对低劣数据质量相关风险的评价、测量、报告、应对和控制,就很有价值。”
问题来了,缺陷数据的引入会在多大程度上影响组织的业务行为?如何测量?反过来说,数据质量改进的价值该如何去衡量?书中提供了以下6个步骤:
1.审查与使用信息相关的风险类型;
2.考虑确定数据质量期望指数的方法;
3.开发用于阐明数据质量计划的流程和工具;
4.定义数据有效性约束;
5.测量数据质量;
6.报告和追踪数据问题。
乍看起来有点儿不知所云,仔细琢磨好像又有点儿意思,但这点儿意思一时又理解得不那么通透,上不着天下不着地的就那么吊着,折磨又挠心。不过,这种感觉一来,学习的感觉就到位了。而且,学习嘛,也要有个轻重缓急的策略,不必时时事事较真儿,不分时机地钻牛角尖,总是不好。所以,虽然不甘心,也只好暂且放过,毕竟本章的重点是讨论将业务影响与低劣数据的质量问题进行关联的方法,以及由低劣数据质量造成的风险类型。
很多业务问题通常直接与数据质量低于用户期望的情况有关。可以分析如何利用数据实现业务目标,以及当环境中存在缺陷数据时又是如何妨碍这些目标的实现。为达到这一点,就必须考虑:
(1)数据质量的业务期望是什么?
(2)低劣数据质量是如何影响业务的?
(3)如何建立业务影响与具体数据质量问题之间的关联关系?
基于"数据质量是主观的"事实,客观的数据质量度量指标(如无效值的数量或者缺失数据元的百分比)可能与业务绩效没有必然联系,进而引出以下值得关注的问题:
(1)如何区分高影响和低影响的数据质量问题?
(2)如何隔离数据缺陷的引入源,调整流程而不是纠正数据?
(3)如何建立业务价值与来源数据质量之间的关联关系?
(4)利用数据质量的最佳实践解决这些问题的最佳途径是什么?
这些问题,可由数据质量期望与业务期望之间的基本差别来描述。
数据质量期望指数可以表达为测量数据有效性特征的规则:
(1)什么数据是缺失的或不可用的
(2)那些数据值是冲突的
(3)哪些记录是重复的
(4)缺失了哪些链接(Linkage)
业务目标期望指数表达为测量流程绩效、生产效率的规则,如以下问题:
(1)错误如何导致生产率下降
(2)修改失败流程花费时间所占的百分比
(3)因缺失数据导致的事务失败造成的损失有多少
(4)如何能快速响应商业机会
然后,使用相关数据质量规则,测量其与业务期望指数是否符合,确定指出的业务问题是否与数据的使用有关,继而测量低劣数据质量的业务影响,以及这些影响与其根源的关联关系,从而将业务影响与数据的质量问题关联起来,为衡量数据问题对业务的影响程度提供了框架。
数据问题可能发生在不同的业务流程中。分析低劣数据质量阻碍业务成功的程度,所使用的方法应包括:详细描述业务影响,对这些影响分类,然后根据影响的严重程度对问题排序。但是,数据分析师通常不会精通、熟悉所有的业务场景,当遭遇陌生的业务场景问题时,如何对业务影响进行合理的分类评估就成了一问题。为解决这个问题,书中提出了一种对数据错误导致的业务影响进行分类的方法。
该分类方法试图支持数据质量分析流程,并且帮助区分造成严重业务后果的数据问题和不严重的数据问题。该分析方案是一个简单的分类系统,通过评价与数据错误相关的负面影响,或改进数据质量带来的潜在机会,列出主要类别:
(1)对财务的影响,如增加了运营成本,降低了利润,错失了机会,缩小或延迟了现金流,或者增加了处罚、罚金或其他开支;
(2)对置信度和满意度的影响,如客户、员工或供应商的满意度以及整个市场满意度,下降了组织的信誉,低的预测置信度,不一致的运营与管理报表,厌恶的或者错误的决策;
(3)对生产率的影响,如增加了工作量,降低了产量,增加了处理时间,或者降低了最终产品质量;
(4)对与信用评级相关的风险与合规性的影响,包括投资风险,竞争风险,以及与资本有关的投资、开发、诈骗和泄密现象,还包括与正负规章、行业期望指数或者自愿接受的政策(如隐私政策)的合规性。
总结,书中通过对比数据质量期望与业务期望之间的匹配情况,可以实现将数据问题与业务影响关联起来的目的;低劣数据对业务的影响也给出了简单的分类方案;但是,针对“数据质量是什么”的问题,书中却没有进行论述,留待以后展开。