数据管理简史:从人工到人工智能
一、 指尖上的负担(1800年以前,数据管理0.1)
公元1790年,美利坚合众国举行了一次全国性人口普查,当时美国经济正处于迅速发展阶段,人口流动十分频繁,需要统计的项目繁多,如年龄、性别等,并且还要统计出每个社区有多少儿童和老人,有多少男性公民和女性公民等。再加上统计手段落后,调查员们花了7年半的时间才把数据处理完毕。也就是说,直到快进行第二次人口普查时,美国政府才能得知第一次人口普查的状况。调查员们终日埋在数据堆里,一天下来,也统计不出几张表格的数据。这个时期数据的概念初步形成,但数据相关工作全靠手工,数据管理工作成为调查员们指尖上的沉重负担。
图1埋在数据堆里面的调查员们二、 卡片上的艺术(1800-1960年,数据管理0.2)
美国第一次人口普查过后,Hollerith深知人工统计数据之痛,发明了分拣机、制表机和记录机,用来记录完整的数据,可以说第一次把数据转变成了二进制信息。一直到1910年-1960年代中期,打卡和制表机都是企业办公的前提条件。1946年2月14日,第一台计算机出世,用穿孔卡片输入数据的方法一直沿用,数据处理也发展成为计算机的主要功能之一。这个时期数据变成了可以存储的计算机语言,但是计算机速度很慢,仍然需要大量的手工劳动才能运行,主要还是依靠人工处理数据,数据不能长期保存,数据不能共享,数据管理工作依然难以进行。
图2工作人员在操作机器三、 磁盘中的储备(1950-1965年,数据管理0.3)
50年代-60年代中期,主要通过文件系统对数据进行管理。文件系统是一种能够快速检索打卡信息的机械手段。当时适逢第二代编程语言(汇编语言)兴起,程序员能使用字母表中的字母进行编程,而不是使用复杂的1和0字符串,程序初步拥有了可读性,使程序员免于繁琐并且容易出错的计算,因此汇编语言成为了组织用作管理数据的早期方法。这个时期数据主要以磁盘为存储介质,可以初步实现联机实时处理和批处理,并且数据可以长期保存,但是数据冗余多、共享性与独立性差,仍然谈不上实现了系统性的数据管理。
图3用汇编语言编写的代码
四、 结构化的飞跃(1965-1995,数据管理0.6)
20世纪60年代末,美国通用公司研发的第一个数据库系统DBMS诞生,也标志着数据管理进入了一个新的时代。同时大容量磁盘的产生,让数据能够实现大规模管理。在这个时期,一批数据库软件系统出世,数据由DBMS统一管理和控制,第一次实现了数据的结构化,数据有了物理独立性与逻辑独立性,人们可以通过DBMS实现一致的数据处理并减少重复数据的数量。数据可以被联机实时处理、分布处理、批处理,共享性高、冗余度低、易扩充,很大程度减少了数据管理工作人员的人工压力,系统性数据管理初见端倪。
五、 元数据的萌芽(1995-2000年,数据管理0.7)
1995年3月,由OCLC(Online Computer library Center,联机计算机图书馆中心)和NCSA(National Center for Supercomputing Applications,美国国家超级计算应用中心)联合在美国的都柏林镇召开的第一届元数据研讨会上,产生了一个精简的元数据集——都柏林核心元素集(Dublin Core Element Set),简称DC。旨在用一个简单的元数据记录来描述种类繁多的电子信息,达到有效地描述和检索网上图书资源。DC能较好地解决网络资源的发现、控制和管理问题,1998年9月,因特网工程任务组(IETF)将其作为一个正式标准予以发布(RFC2413)。DC元数据概念的提出,为现代基于元数据驱动的数据管理奠定了坚实的基础,到此,数据管理的序幕才真正被拉开。
六、 初步认知的建立(2000-2008年,数据管理0.8)
国外学界关于“数据治理”的认识始于2004年,起因是H. Watson探讨了“数据仓库治理”在 Blue Cross和 Blue Shield of North Carolina 两家公司的最佳实践,由此拉开了“数据治理”在企业管理中的大幕。同年,非营利组织DAMA协会成立,以提升数据管理行业及专业的意识和教育。2005年之后,陆续有学者对“数据治理”展开研究,讨论了数据治理环境下企业、政府、医院的职能角色、模型、框架、因素与机制等。2008年国际标准化组织ISO又围绕数据治理和数据管理(ISO/IEC 2008)提出差异化概念。从这个时期开始,数据管理因其在组织内部和外部管理数据使用上的重要性和优势而受到越来越多的关注,国内外相关组织初步建立了在数据管理上的认知。
七、 “5V”的驱动(2008年,数据管理0.9)
2008年8月中旬,在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中正式提出大数据概念和大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据和其相关概念的提出,让数据成为公司战略竞争力,驱动了各大企业在数据管理上的欲望,数据管理工作得到进一步发展。
八、 监管下的推进(2008-2016年,数据管理1.0)
2008-2016年这段时间,国内数据管理工作主要还是面向监管报送系统的单纯的数据质量提升。以银行为代表,为了满足监管报送的数据质量要求,各大银行都先后根据1104设计质量检核体系与质量专项计划,旨在提升报送数据质量,这个时期的数据管理虽然能解决和发现监管上的数据质量问题,但是由于数据管理职能在IT中是分散的,忽略了数据在更广泛的数据环境中的关系,因此还是处于头痛医头,脚痛医脚的水平,难以从整体上提升数据质量。随着IT在银行应用的不断深入,银行建设了大量IT系统并积累了海量数据,如何高效开展数据管理工作,对于公司具有重要意义。2012年7月,国际数据管理协会DAMA出版《DAMA数据管理知识体系指南》一书,一度畅销,也进一步推进国内数据管理走向了正轨。
图4 中国银监会发文九、 系统中的主数据(2010-至今,数据管理2.0)
随着MIS、MRP、ERP等系统的产生,企业发现像客户、产品、员工等这些数据总是需要在各个系统之间分享,最早的是外国ERP厂商推出MDM产品,例如Informatica、 Oracle 、IBM、SAP 、微软都采取了自有产品并提供主数据管理解决方案,旨在集中管理单一版本的、完整的和可信任的主数据信息。到目前为止,还有很多企业处在这个时期,例如对于一些制造型企业来说,由于制造产品信息的复杂、数据量巨大、信息化程度不一,目前主数据如何管理仍是很大的挑战。
十、 仓库中的标准(2012-2017年,数据管理3.0)
2012-2017年这段时间,国内数据管理工作的重点转向面向数据仓库的数据标准的建立和落地。以银行和大型企业为代表,在Inmon提出数据仓库理论后,2010年左右,各大企业都开始了数据仓库的建设,单点解决数据质量问题已经不能满足需求,需要根据数据标准规范数据仓库上下游数据,实现数据拉通,同时建立完善的数据管理机制,解决数据管理没有管控流程、数据管理与业务流程结合的问题。数据管理3.0引入了数据驱动业务的原则,承认了对协作数据管理的需求,拆除了数据孤岛并且将数据管理责任分散到了更多角色。
十一、 服务化与消费(2018-至今,数据管理4.0)
2018年到未来2020年,数据管理的重点将放在面向数据服务化的数据消费支撑场景。以银行、政府、公安等行业为代表,在数据质量基本得到保障,近几年,在元数据管理技术和平台日益增强的背景下,大中型企业基本实现了自动分析数据资产,同时能够在二代系统的基础上提供数据资产可视与数据服务化能力,数据管理由单纯的内部管理转型为企业支撑业务数字化的必要手段。
十二、 云与人工智能(未来,数据管理5.0)
一方面,随着服务的开发,许多企业开始将大部分数据存储和处理转移到云端。公司从传统的单片架构转向分布式混合云架构。云将根据需要为组织提供专用的数据管理资源,数据管理将与底层基础架构无关。它使用新协议的新形式访问媒体边缘和移动设备,用一种新的不断扩展的数据结构、容器和接口,支持数据驱动,例如自助数据准备、自助分析等。未来数据管理方面将会有新的创新,以满足在这些新的混合云环境中保护和管理数据的需求。
另一方面,可以预见,在未来十年内,人工智能将帮助企业识别和分类大量存储数据,并对基本数据管理程序做出例行决策。作为数据管理的助手,人工智能将变得越来越有价值。包括处理、管理和存储非结构化数据;去掉不相关的冗余数据、实现最大化数据集成、确定存储数据的最佳位置等。
图5 数据和分析治理和主数据管理成熟度模型参考文献
[1]Saul Judah.Hype Cycle for Data and Analytics Governance and Master Data Management, 2019[R].America:Gartner,2019.
[2]Keith D. Foote.A Brief History of Data Management[EB/OL].https://www.dataversity.net/brief-history-data-management/,2018-03-20.
[3]Michael Hiskey.He Who Rules The Data, Rules The World: A Brief History Of Data Governance[EB/OL].https://www.forbes.com/sites/ciocentral/2017/11/16/he-who-rules-the-data-rules-the-world-a-brief-history-of-data-governance/,2017-11-16.
[4]刘桂锋,钱锦琳,卢章平.国内外数据治理研究进展: 内涵、要素、模型与框架[J].图书情报工作,2017,61(21):137-144.
[5]未知.数据处理发展的三个历史阶段[EB/OL].https://wenku.baidu.com/view/a417aa71854769eae009581b6bd97f192379bf13.html,2018-10-06.
[6]蔡春久.数据治理平台工具前世今生[EB/OL].http://www.uml.org.cn/bigdata/201906042.asp,2019-6.
[7]清心悟道.大数据发展历程[EB/OL].https://www.cnblogs.com/qxwd/p/5988640.html,2016-10-22.
[8]大大里.数据库的发展历史[EB/OL].https://baijiahao.baidu.com/s?id=1591609627735692351&wfr=spider&for=pc,2018-02-06.
[9]刘宏仓.数据发展简史[EB/OL].https://max.book118.com/html/2018/0614/172617019.shtm,2017-01-13.
本文作者龚菲,数据领域工作者,转载请注明出处和作者,违者必究。