中国数据质量管理现状及发展趋势(一)

2020-11-19  本文已影响0人  19e1a2398326

本文根据谭海华先生在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。

图1.1

华矩科技创始人及董事长 CEO 谭海华

演讲嘉宾介绍 - 谭海华

华矩科技创始人及董事长 CEO

中国管理科学研究院创新所大数据共享技术委员会主任及学术委员

数据质量国际峰会 DQMIS的发起人及执行负责人

数据共享联盟-数享汇创始人

国家发改委培训中心特聘大数据专家讲师

工业大数据应用技术国家工程实验室《工业企业大数据治理实践指南》编委会成员

中国保信《保险大数据》、《中国保险报》、中保⽹特约撰稿人,是中保信特聘技术专家

中国电子技术标准化研究院等创办的数据标准化与治理专家库首批成员

广州市工业和信息化委员会大数据及人⼯智能专家团首批入库专家成员

曾任职IBM,埃森哲咨询,微软,致力企业管理咨询,信息化建设,大数据治理及相关行业信息化解决方案研究和实施。

- 作为IBM资深顾问及SIC项目负责人参与实施华为IPD咨询项目

- 作为IBM资深顾问参与管理及实施国内金融业最早一批的数据仓库项目策划

- 作为埃森哲资深顾问参与管理及实施国内最早一批的大型企业数据治理项目

演讲目录

国内数据质量管理的现状

数据质量管理的历史与发展趋势

数据质量管理中的方法、技术、数据三者关系

数据质量管理的新视角

谭总:各位来宾好,各位领导、各位老师好,今天非常高兴能够在这里跟新老朋友相聚,这是我们这个峰会的第四届了,刚才也看到非常多熟悉的面孔。

本次峰会我们选用了一个主题,叫做“跨越周期,回归本质”,这个“质”也是我们数据质量的质,为什么是跨越周期呢?其实这也反映了我们过去4年的探索。

刚才我们张老师有讲到,在2017年的时候,在北大,在我们系的一个会议室里面,当时我们在探讨数据质量的一些问题,就说怎么去看待这个问题。在2018年的时候,我们看数据治理的路径是什么,怎么建设一个数据质量管理,包括数据治理。在去年,我们重点讨论的是数据质量怎么驱动业务创新。可能在去年这个话题还是有点超前,但是从今年整体的情况来讲,可以说我们的视野看的比较远一点,但还是觉得要脚踏实地,我们要回归本质,这也是我在过去这4年里面看到的情况,所以今年我们的主题是叫做“跨越周期,回归本质”。

我自己是从做代码开始成长起来的,前面几位嘉宾包括汪主席、潘老师,他们谈高瞻远瞩的框架,这是非常重要的,因为有理论依据我们才知道怎么做下去。那我今天跟各位分享的内容,主要是我们国内的数据质量管理实践面临的问题以及具体的一些技术落地工作。

首先谈谈国内的数据质量管理现状,主要结合华矩科技这几年来与多达40多个企业的互动记录跟大家分享。今年我们为什么会讲现状,这个现状可能不一定是我们的市场分析报告,而是我们看到的很实在的问题。这些问题我相信也是很多数据治理部门负责人经常碰到的情况,我们在做数据治理,虽然我们都有很好的蓝图,但是我们要落地的时候,这些问题无处不在。

不管是我们从数据应用上看到的问题,还是我们真正看到的数据质量的问题,或是我们反追管理时发现的问题,这些都是我们在数据治理往下走的时候不得不面对的,这个情况我不会展开但是我非常欢迎大家可以跟我交流你们遇到的问题,这里面比如标准与规范的问题,多头发布,多头应用的问题,还有我们的录入不规范,包括来源不精准等等问题,我相信这些问题大都会见到。

另外是大家在做数据治理时候的一些常规性看到的问题,前面潘老师有一个很好的方法论,不管是自下而上、自上而下,我相信我们都会遵循一个很好的标准去做。

在我们往下去做的时候,我们要建立很多东西,但是怎么去管理?我们跟很多客户朋友去交流的时候,我们做了很多数据治理框架搭建的工作,但是往往我们的CIO、CEO就会问了,究竟数据治理的价值在哪里。也就是我们数据治理的ROI是怎么去分析的,怎么去体现数据治理的价值,尤其是专注做大数据的人,包括我们企业里面数据部的同事,这是需要你们去回答的,究竟我们的工作价值在哪里,能不能衡量出来,这是我看到的情况。

这些都是我们在工作里面碰到的一些问题,跟大家去分享,我不逐一去过了,但是这里面有几个很明显的,包括我们DAMA数据治理体系,其实上面对于怎么做都讲的很清楚了,但是我们在做的过程中还是会面临一些问题,比如说组织架构权力不清楚,这是第一步没办法迈过的坎,因为当这个企业里面看到这个数据质量的时候,首先是追责,究竟是谁来负责,这个问题不解决的话就没办法走下去。毕竟不是说只搭一个框架,这是要真实去问责的,问谁的责,应该怎么做,这是我们会碰到的问题。

还有一个是行动计划的碎片化,等一下我们会看到一个案例,它的行动计划碎片化产生的结果,这里有一个统筹观的问题,我们怎么统筹,在我们所有的建设里面,它是环环相扣,但是怎么能够同步并行?这是我们看到的一个问题。

还包括全局观的概念,我们做数据治理的全局观在哪里,我们数字化转型的定位在哪里。也就是说数据治理本身也有相对的目标,有相对阶段的目标。刚才杨部长提到的,我觉得他有一个词还蛮精准的,说“合适就好”。你看到就是说我们是要完备性,在你做这件事情的完备性“合适就好”,我觉得我们要有这样一个观念。

这也是我们看到的一些典型的问题,就是我们任务分解的合理性。大家都知道我们在方法论里面是有相对比较完整的思路,刚才汪主席那个表,我觉得分解的已经比较细了,但是在我们真实的工作里面,我们还是会面临分解的合理性问题,怎么样是更合理的,这个合理性决定了我们做的顺不顺畅。

另外有一点,我觉得很深的一个体会,即怎么样建立你的起点,我相信我们每一个企业或者说每一个数据治理项目都不是无中生有的,它肯定是有一个现状,你的起点决定了你的方向。我在后面会讲到我们对起点的理解。

还有一个是说我们在看这些情况的时候,我们要用动态的观点看待企业的数据治理工作,这点非常重要。杨部长也讲到,为什么在经济学里面没有办法很精准地把数据作为生产要素,因为它确实太复杂了,因为数据有增量的,它不是静止的,它是动态的。比如我是从广州来,这次来北京才发现我们的北京健康码是一天有效,我第二天再去看,没有了,要重新登记,为什么?数据的特点就是这样子,你当时是有效的不代表你明天是有效的,你必须要有动态的观点去看待数据的问题。

另外一个问题,现在我们很多不是基于准确的、量化的数据质量的一个诊断结果去做的判断。我觉得这个原理大家不陌生,假如说你对自己都不了解的话,你怎么往下走,当然这里用的是一个诊断的概念,我相信各位都有看病的体验,第一步首先是了解你自己,了解你本人,了解你的身体,了解你的状况,再来谈你应该用什么方案。

刚才提到了几个观点,一个是动态的观点,第二个是你必须要了解自己,你才能知道你的起点在哪里,在这个起点下面你才能知道你应该往哪个方向走,这就是我们的观点。

回到这里,还有一个现状,也是我们这次的会议为什么讲回归本质。前面提到我们在建设数据治理的时候有很多种路径,大家对这个步骤不会有太多的疑义,但是首先咨询导向得是对的,像我们去医院导诊很重要,究竟我看哪个科,这个是很重要的。

图1.3

A类:有些做完管理咨询之后就工具选型了,第三步就是实施落地。

B类:我做完管理咨询了,先别着急的选工具,先制订标准,标准是刚才讲的究竟站在哪里,现状是什么,所以有些就会说首先要先做标准规范,做完标准规范再看怎么能支撑我的管理。

C类:我在做管理咨询的时候,第二步我先做基础搭建,把主数据先做好了,接下来再看标准规范,但是这个有前有后,然后做工具选型再做实施落地。

我相信在业界这个不能说它已经穷尽了100%,有可能是80%,都离不开这三种模式。我想大家在做真正落地的时候有很多企业可能就是A类,A类他很快在第二步就感觉到痛苦,更不要说第三步。因为我们在做数据治理时毕竟它还是一个管理跟工具配合包括验证结果的一件事情,它不纯粹是一个过程,比如我们做个OA,我不是把流程跑下来就OK了,因为你的数据如果不能给你这个企业带来价值的话,企业就会认为你的投入都是白费的。我相信在做数据治理的朋友都会有这样压力的,究竟怎么讲清楚我们的价值在哪里。

左边是我们普遍认同的方法、内容和平台。我们得先有方法,方法很重要,要是方法都不知道我们就不知道从何讲起。但是第二个内容最重要我们往往却忽略了,直接就到平台了,究竟是什么样的内容,用什么样的平台,合适就好。刚才杨部长讲到,你的数据质量,你做的事情是针对你这件事情的一个完备性,所以内容这个问题也是在我们过去做了好多这种项目后,回过头来看我们怎么把内容做好,也是本次峰会的主题,我们要回归本质,因为这个才是我真正要的,才能让我们真正发挥价值的。至于我用什么样的平台,什么最合适我,包括我最终能够产生什么效果,取决于内容讲什么,具体什么是内容。

图1.4

这是一个很简单的例子。这个统一视图,我们叫Single

View,大数据做数据质量最能考验的就是这个,假如说人家在你的企业系统里面搜索“李明”,有100个李明出来,就不知道这是谁。我相信在座的有很多银行的朋友、保险的朋友、大零售的朋友,对我们的Single

View都有很深的体会,精准营销是我们最核心的一个应用点。

那么怎么做好这个最基础的工作?别小看左边这么简单的一个事情,右边你会面临那么多问题,你是怎么样知道你的什么标准是正确的。我跟我们的合作伙伴,也包括我们的客户,讲过一个很简单的道理,苹果手机的名字叫苹果,它也叫iPhone、苹果11或者iPhone11,在你们的公司,哪个是标准的?他们都是对的,它可以叫iPhone11,也可以叫苹果11,但究竟你选用哪个作为你的标准,这就很考验人了。

你首先要知道这个标准对你的意义在哪里,为什么要做选择,要是不得不做选择,这就要回到我们讲的标准化的问题。那么你首先要知道哪个是正确的,在正确里面还要挑哪个是最符合你们企业要的,它正确不代表是你需要的,有很多是正确的,你要选哪个。再就是怎么保证它语义的一致性问题,我怎么证明我讲的这件事跟那件事是一回事,这些都是我们做的很核心的工作,包括代码规范、异构系统集成等,大家看这虽然是小小的一件事,但是这背后,数据治理部门可能要解决很多问题,包括主数据管理问题,包括我们定义一致性的问题,这都是需要我们去做的。

我想通过几个场景,从我们的方法论拉到我们现实的情况,我们所面对的问题,在这里面我还是简单讲一下发展趋势,因为这跟我们后面的理解有关。有关数据质量,在去年我也用了这张片子,我觉得这能够反映我们对数据质量颗粒度的一些看法,因为数据质量不是一个不可分解的东西,它的颗粒度是决定你怎么去看问题的关键,包括数据、信息、语义、业务规则等。

上一篇 下一篇

猜你喜欢

热点阅读