窥探企业数据中台的秘密-下
数据资源规划与建设
前言
随着时代的发展,全球性经济处于低速增长阶段,为了解决增长困境带来的问题,经济学界提出了新经济的概念。原因有两方面:一方面,传统产业与金融行业的发展模式迫切需要寻找新的突破、新的变革与新的增长点;另一方面,粗放式、无节制的生产经营方式与消费模式,让整个行业感到万分焦虑,使得整个焦化行业暴露出各种无节制问题,变成在无效益中空忙,从而导致社会资本的严重浪费。
如何在变局下的经济新探索中找到经济转型的突破口;如何在稳定基本盘的前提下找到新的增长点;如何在权衡资源的有效分配前提下提升公众福利,都变成了新时代社会变革的聚焦点。
新经济的目的是重新梳理规划现有的社会资产,再进行重新分配,不是为了追求所谓的“共享”,而盲目设立战略目标,盲目的去跟风、加大资源的投入。在新经济的推动上需要每个人都参与其中,通过借助数据资源注入的方式来平衡与实现。因为,数据资源是一个城市发展不可或缺的重要资源,只有像规划城市土地资源一样规划数据资源;像规划垃圾处理一样规划数据的处理;像规划供电能力一样规划计算能力,才能真正促进新经济的增长,所以说,数据资源是重塑未来城市发展的重要元素之一。
企业建立数据中台目的是也一样,为了能够快速的赋能业务进行落地实施、改造、试错、转型;快速提升组织之间的协同效率,降低系统成本,实现数字化-智能化转型。当数据汇集之后,企业在做数据治理、数据建模、数据资产管理等工作之前,一定要先对企业的数据进行数据盘点,然后再去做数据资源规划。
那么,如何进行有效的数据资源规划与设计呢?本篇,按顺序介绍如下:
1、数据资源规划的目标
2、数据资源规划的内容
3、数据资源规划的方法
01数据资源规划的目标
在问为什么要做数据资源规划,先和大家对企业信息化建设做个简单的梳理和分析。
目前,大多数企业的信息化建设还处于无序的状态,缺乏统一的流程与规范。每个部门都有建立自己烟囱式的IT系统、建立烟囱式独立的数据分析平台和数据仓库或引进各种外部应用软件再进行二次开发,它们彼此之间相互独立,采用单项引进的开发模式,只是一味地追求各自的功能实现,没有按照全局的思想去做资源协调与规划,没有统一的流程与规范,没有统一的数据标准化,都是自给自足的生产的模式各自采集各自的数据,所有数据库差不多都是按报表格式的方式建立,导致信息孤岛的产生,数据无法互联共享有章可循,造成在混乱的业务系统环境中,无序、矛盾、冗余的数据随处可见。
只重视制定总体规划,在制定规划方面存在很多问题,总结一下可以用两个词来概括:滞后与缺乏。
1、滞后
企业更加侧重于网络建设,在落地方案和技术选型等方面粒度过细,在数据资源开发利用方面的规划粒度过粗;管理层和决策层的应用滞后于数据应用层,没有形成以数据驱动业务的统一认知。
2、缺乏
一方面,数据资源整合目标相对泛化,缺乏总体数据规划的意识,没有整合信息孤岛的措施,数据中心建设和数据集中管理等规划缺乏可操作性,缺乏数据标准化建设方面的规划,更多的是在喊口号,说概念,没有真正的实际行动;
另一方面,应用系统规划没有重组优化的想法,缺少如何集成已有应用系统的方法,在新应用系统落地技术选型方面描述过于细,甚至形成错误的模式和观念,观念还停留在企业信息化就是网络加ERP系统的思想阶段。
实际上,企业信息数字化建设面临的瓶颈问题并不只是在网络搭建、设备或者应用软件的技术选型上面,而是如何运用科学的方法,将分散、孤立的各类信息汇集起来,消除信息孤岛,实现数据信息共享。
解决这一问题的关键就是做好数据资源规划。数据资源规划是一个企业发展战略规划的另一种延伸,是企业信息化建设的基础工程,只有在做到数据环境改造,应用系统集成的前提之下,才能做好数据资源规划,促进数据标准化的建设。
数据资源规划它的目标是通过规范化的方式来发现企业业务的状况;通过规范数据源,解决数据源一致性问题;通过规范数据模型,明确数据关系。
02数据资源规划的内容
当企业业务系统逐渐增多,点对点的集成方案将变成一场灾难。主要有以下几个原因:
多对多系统的数据交换,牵一发而动前身,稍有不慎,系统可能就毁于一旦;
业务重合度过高,造成重复建设,浪费开发资源;
业务流程进行调整比较难,对业务变化的延展性、拓展性与适应性差;
研发质量难以保证与控制,系统开销太大,影响系统性能
为了解决以上问题,企业需要先梳理现状、确定组织、认识数据、数据呈现,从而清晰的了解认识到企业的真实情况,从中找到数据资源规划破局的方法。
【数据资源规划内容图】1、梳理现状
通过从以下四个方面,梳理出企业现状,统计出数据来源,确定数据资源分类,做好数据评估,确定当前数据容量,结合业务运行频度,数据产生效率,预测数据成长规模。
业务角度:梳理业务流程、核心业务指标、业务数据应用,看是否可以找到业务新的创新点;
数据角度:梳理目前企业有什么数据,数据来自什么业务系统,数据用在哪里,数据如何存储,安全与否;业务还可以采集到什么数据;还缺什么数据;目前企业数据建设的情况;
技术角度:梳理目前各个业务系统的拓扑结构、技术架构、系统的开发语言和系统的开放性
组织中心:了解企业是否有完善的组织架构;明确知道各部门、各个业务系统的分工机制、职能边界与配合方式
2、确定组织
在认知上、在流程上、在业务上、在实践上形成统一的规范与流程,只有在规范和流程的前提之下,数据相关人员才能更好的相互协作;其次,对整个企业组织需求进行重新分析和调研,根据目前企业实际的数据规模、数据访问频度、数据存储等特性,规划数据资源的存储容量,设定不一样的数据存储架构
3、认识数据
基于业务模型,了解数据的分布特性,洞察数据的特征,检验数据的质量;分析各数据源之间的内在关联关系、相互依赖关系、数据变化的影响关系等,确定各数据源之间的数据流向,明确的知道企业目前的数据生态和数据之间的关联关系,为设计总体数据架构和模型提供有利的依据。
4、数据呈现
基于数据情况提供完整的数据资源分析报告;基于数据应用的使用,设计合理的数据共享和数据服务方式
03
数据资源规划的方法
1、构建数据体系
构建企业数据体系之前,需要先梳理清楚企业数据资源管理的业务体系,才能保证数据来源的可靠性。
【数据生命周期运维体系图】数据的业务体系,首先从数据的整个生命周期来看每个阶段都需要什么数据做支撑,才能形成庞大的数据体系,然后再基于业务体系去划分数据体系,具体解决的思路、业务流程以及需要注重的功能点如下图所示:
【数据资源目录体系图】
2、建立数据标准体系
梳理汇总企业现有的各类业务的数据标准后,筛选出可直接参考和使用的标准与行业标准相互结合,制定出新的数据标准体系,形成一套标准化的数据规范,对具体数据项的定义、口径、格式、取值、单位等进行规范说明,提升数据质量,最终实现企业数据资源的统一管理和展现
3、数据资源整合
通过汇集企业全域级数据,做数据资源整合,为业务融合提供有利支撑
【数据资源规划图】★ 构建数据画像,理清数据脉络
数据分类:基于业务体系进行数据分类,建立数据资源目录,对各类数据进行相应的描述
数据关系:明确数据之间的流转关系,设计出合理的数据流路径,统一数据的口径
责任主体:确定数据生命周期中每个阶段数据的责任主体和归属状态
★ 构建数据管理,规范数据秩序
数据存储管理:基于集中统一共享,分层分级管理的思路原则,对于不同类型的数据,采用不同的数据存储方式
数据规整入库:对已存入数据库中的数据、未建库的数据以及各种纸质/电子文档数据进行统一规整,建立数据入库标准与秩序,保证数据有序存储和使用的便捷性
数据更新管理:在机制和工具上设置双重保障的前提下,保障数据更新管理的规范性、安全性和隐私性。建立完善的动态更新机制和操作规范流程,对数据进行统一管理,为数据入库更新提供有效的支持;同时,结合数据库更新管理系统对数据进行安全检测、入库更新、数据导出,提供全链路的保障机制
★ 提供数据内外共享服务
在确保数据安全和数据隐私的前提下,设计合理的数据共享与数据服务
总结
数据资源规划是对数据建模、采集、加工、存储、应用等方面进行规划。首先,基于业务厘清数据流向、建立数据模型,形成数据资源应用与管理标准体系;其次,融合异构数据,建立数据安全管理体系,共建企业数据生态圈,为做好数据集成、数据共享与服务,提供有利的数据支撑和保障。
在数据资源规划的过程当中,需要从法规、数据标准、技术三方面做到“四要”,一起共同建设,合力破局。
要明确数据拥有者、数据使用者、数据流转者是谁,通过有效的技术支撑,确保数据全链路的可监、可控、可追溯;
要建立数据资源体系架构,制定相应的标准规范,确保基于业务的数据共享与服务;
要明确数据生命周期中每个阶段数据的责任主体和归属状态,解决企业数据信息孤岛的困境,提供数据共享交换平台;
要加快企业数据治理和数据资产管理平台的建设,以数据化的方式服务于各个应用场景。
数据质量管理与分析
前言
今年1月份,世界各国领导人齐聚达沃斯的世界经济论坛。来自中国、日本、南非、德国和其他国家的领导人高度达成了一项共识:迫切需要提高数据采集、使用和共享的透明度并制定相关指南。
2019年6月28日,在大阪举行的二十国集团(G20)峰会上,日本首相安倍晋三针对这一议题明确表示:作为主席国,日本将致力于推动建立新的国际数据监督体系。“我希望G20大阪峰会因启动全球数据治理而被人们长久铭记。”
此外,G20贸易和数字经济部长发表声明:“数据、信息、思想和知识的跨境流动提高了生产力、增加了创新并促进了可持续发展。与此同时,我们也认识到,数据的自由流动带来了一些新的挑战。通过应对与隐私、数据保护、知识产权及安全问题相关的挑战,我们可以进一步促进数据自由流动并增强消费者和企业的信任。”
从企业和政府的角度来看,以上情况均表明,世界各国普遍意识到了数据的重要性。这一从意识层面开始的觉醒让人们认识到,原有的企业数据管理方法将不再适合2020年以及之后的企业发展。
墨守成规的方式是不行的。企业和政府部门需要一起齐心协力,在推动数据驱动的创新以及由此带来的经济增长的同时,共同采取积极措施,保护消费者。
— 引用大阪举行G20峰会会议内容
企业启动中台战略的目的是为了提升效率和解决业务匹配度问题,最终达到降本增效,让一切业务数据化,一切数据业务化。数据业务化的关键要素之一就是先确保数据质量,才能有效的发挥出数据的价值。
企业有多个业务系统,会产生很多的数据。但是,在大数据中的大对应的就是少,因为越是真实的业务数据,数据量就越大,但是可用的信息比例就越少,实际得到的更多是噪音数据。如果在做数据分析与挖掘时,拟合了噪音数据,那就被数据绑架了。
数据本身是不会撒谎,而是收集样本的维度、数据量会撒谎,毕竟收集数据的质量良莠不齐。然而,数据质量又常常反映的是数据的“适用性”,即数据满足使用时需要的合适程度。
那么,需要如何进行有效的数据质量管理与分析才能满足数据的适用性呢?本篇,按顺序介绍如下:
数据质量问题盘点与分析数据质量管理方法与步骤数据质量管理的注意事项
01数据质量问题盘点与分析
维基百科的定义,数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
企业需要通过有效手段对数据进行管理与控制,改善数据质量问题,从而提升数据质量,发挥数据的价值。数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业一切业务能力的基础。
【数据质量四大问题域图】数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。
【数据质量问题分析图】从上述数据质量问题的影响因素分析可以发现,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。
一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。
从信息、技术和流程三个方面的数据质量问题相对来说比较容易控制,可以通过引入数据质量管理体系和数据质量管理系统;对于管理类的数据质量问题,更多往往在于企业人对于数据的理解、支持和认知程度有很大的关系,通常可以从数据规划、数据治理的组织与职责、数据规范的制度和流程等方面去做工程规划。
所以,想要真正从根源上改进数据质量问题,需要从组织管理、业务、技术三个方面同时入手。
02数据质量管理方法与步骤
在前一篇【数据资源规划与建设】文章中,笔者已经提到过数据资源规划的重要性以及具体的工程方法与步骤。企业做数据资源规划前要对数据进行详细的梳理,只有梳理出企业的数据现状,统计出数据来源,确定数据资源分类,做好数据分析评估,才能找到据资源规划的解决方法。然而,企业做数据资源规划的前提是要保证数据质量。
从方法论的角度来看,针对数据的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果等环节;
从业务的角度来看,针对数据的改善和管理,主要包括业务需求与变更多级评审、规范业务端数据输入规范、稽核业务数据质量等内容;
从技术的角度来看,针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容。
【数据质量管理的三要素】1、数据梳理
数据梳理是明确企业数据现状,知道整体数据质量情况,将具有共同的特征数据提取出来,按照主题域的方式进行划分,方便后续的数据管理。先明确企业数据的种类,根据数据的不同分类,选择不同的提升数据质量的方法。
梳理企业目前的数据情况,知道企业现阶段有什么数据,数据来自什么业务系统,数据用在哪里,数据如何存储,数据安全和数据隐私是什么情况;业务可以采集到什么数据;还缺什么数据以及目前企业数据建设的情况,做好数据评估与分析报告,为数据质量提升提供一个全方位的数据现状参考。
业内通常采用以下方式,对数据质量进行评估:
【数据质量标准图】 【数据质量评估图】从业务角度出发,梳理出目前企业数据之间的流向关系、数据的分类情况和数据分类之间的关系,明确什么数据是基础数据,什么数据是由基础数据衍生出来的
只有先梳理清楚目前企业数据情况,才能认清企业数据的情况,从中找到提升数据质量的关键突破点。
2、数据规范
从数据模型和数据标准两个方面定义好数据规范。
数据模型是数据特征的抽象,是获取和明确企业数据需求的方法,也是数据需求分析与建模工作的基础,通过对展现客观事物的信息进行抽象、综合、分类,组织为具有某种结构的数据,对这些数据结构、其相互之间逻辑关系、数据操作方式及约束的描述。在实际的建模过程中,数据模型所描述的内容包括数据结构、数据操作、数据约束三个部分
数据标准是对数据模型的另一种延伸,是数据资产管理的核心基础,也是对企业数据资产化进行准确重定义的过程。数据标准可以促进企业数据模型落地,对企业业务系统中关键数据进行标准化起到了关键性作用。但是,真正数据标准并不是规范文档、流程文档、制度文档等,而是通过一套由管理规范、管控流程与技术工具共同组成的体系逐步实现数据信息化标准的过程
在数据模型的落地和推动过程当中,往往会遇到由于各组织人员认知不同、看待问题的角度不同以及其他内外部原因等限制,导致数据在集成与互通的时候会遇到数据不一致的问题。
所以,在做业务系统的数据模型设计之前,企业要设计一套相对标准的数据规范。通过数据标准规范来反向推动业务进行数据收集,解决数据不一致的问题。
常用的策略有以下几种:
在需求规划阶段,梳理企业现有的数据模型是否合理,有则改之无则加勉,然后根据现有的模型来设计整体系统的模型,整个过程始终遵循数据标准的规范要求;
在数据获取阶段,重点关注数据的安全性与隐私性问题、数据的及时性问题,数据传输等问题;
在数据存储和共享阶段,重点关注数据的整合问题,数据的一致性问题,数据的完整性等问题。
3、数据生命周期
数据的生命周期需从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个步骤,是一个不断循环迭代的过程。
企业需要对数据流动的整个生命周期的每个环节进行监控把关,要知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。流动数据的价值远远大于静态数据的价值,只有以业务为中心,才能真正让数据用起来。
【数据生命周期图】主要可以从数据标准的规划设计、数据建模、数据质量监控、数据问题诊断、数据清洗、优化完善迭代等方面。比如,当企业元数据、主数据、数据格式、数据校验方式都不一致的情况之下,会导致业务部门对数据进行分析与挖掘的过程中会产生很大的困惑,业务部门需要经过大量的沟通和调查,才能真正理解数据的含义和本质。可以使用数据生命周期的分析思路,在管理和流程上明确数据维护的责任主体,从源头开始就对数据质量进行监控,对关键的元数据、主数据进行统一,将能有效的解决数据质量问题。
◆ 数据需求规划与设计。从需求开始,将数据质量的重要性结合到日常的工作环境中,让数据相关使用人员统一认知,明确知道数据质量的重要性,从需求源头系统开始保证数据质量。比如,涉及到数据需求、研发人员数据库表的设计、数据创建、数据录入、数据存储、数据处理等方面的设计
【数据质量体系建设图】◆ 数据质量监控与诊断。结合数据的生命周期,对数据业务生产线中的每个步骤进行监控与检查。根据各个业务线自身的特性梳理出人工业务规则,前期先采用人工规则的方式对数据质量进行核验,建立规则案例库;持续积累核验数据,后期人工规则与机器学习的方式对数据进行检测。比如,采用分组或者抽样的方式,基于数据评估指标体系对一批数据做数据质量的检查,设定阈值和权重,确定数据是否满足一定的质量区间,对数据质量进行全方位监控
◆ 数据质量管理的方法。利用元数据、主数据监控数据使用的情况;基于数据规范与标准,创建统一的数据模型来解决架构设计和数路开发的不一致性;利用数据质量评估报告,迭代优化数据质量,全方面确保数据的完整性、准确性、一致性、及时性
03 数据质量管理的注意事项
【数据质量控制方式图】1、事前通过定义数据的监控规则预防控制。比如,定义数据规范化、数据标准化、做好元数据管理,确定引起数据质量问题的相关因素,做好解决数据质量问题的优先级,并形成案例库;
2、事中通过监控和控制数据生成过程预防控制。建立数据质量的流程化控制体系,定时对数据的新建、变更、采集、加工、装载、应用等各个环节进行控制和检查;通过业务人工规则和机器学习的审核方式对数据进行管理,从数据的源头开始控制好数据质量,对于不符合质量规则的数据进行及时改进;
3、事后定期开展数据质量的分析、检查、清洗工作,对数据进行打分和问题追踪回溯。
总结一下
数据质量管理是数据治理很重要的一个部分,企业数据治理的所有工作都是围绕着提升数据质量目标而展开的。但是,数据治理是王婆娘的裹脚布,也是政治斗争的绞肉机。治理与管理是两个矛盾的对立面,数据的质量归根结底主要是受到人的影响,仅仅试图依赖技术手段解决数据质量问题的效果往往甚微。
所以,想要做好数据质量管理,希望可以做到以下几点:
1、统一企业数据相关人员的认知,从数据录入、数据分析处理入手,把握好数据来源入口;
2、确定好每个阶段的组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果,从数据发现、分发、治理、监督、考核形成流程化的闭环管理;
3、从管理、业务、技术三方面进行规范,严格执行数据标准规范,保证数据输入端的正确性,制度好数据事前预防控制、事中过程控制、事后监督控制的规则与机制。