26.【常见概念】关于大数据和数据中台的思考
2019年开始接触大数据相关概念,是一个同事离职了,我接手了她遗留的“大数据”产品工作,其实就是个简单的可视化项目,但那时候由于对大数据了解太少,提起大数据就觉得是算法,觉得太深奥了,特意找了几本书看,完全看不懂,加上当时公司处于“开荒时期”,公司里也没有人懂,就很紧张,那时候我经常晚上自主加班,研究到底能呈现什么内容、原型换了一批又一批,客户提出的需求要么很简单——数据分析和数据展示,要么就是很模糊——提供一些智能分析之类的,研究了一些广西市场上的竞品,好像也没有发现什么特别可以借鉴的地方,所以一开始比较艰难,不过这个项目最终是以大部分是统计分析,增加了少了算法预测结尾。
总之,我就这么迷迷糊糊地启蒙了。
2020年进入现在所在的公司,做了两年项目后,我终于找到机会进入公司的大数据团队,接手了“数据中台”产品体系的打造,慢慢揭开大数据神秘面纱的过程,虽然我没做出什么轰轰烈烈的产品,但在这个过程中,我不断获取了新的认知,并且有了自己的想法。
一、什么是大数据?
在做产品的过程中,我一直尝试给“大数据”“大数据产品”找个定义,网上对大数据的定义如下:
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据具有4“V”特征:Volume(大容量)、Variety(多样化)、Velocity(高速)、Value(价值密度低)
但,我有一个疑问,如果我们有100(或者更多)个系统,系统数据是分别在传统数据库中存储的,系统之间用接口或者其他方式,进行数据交互,这算不算大数据范畴?
我认为是,大数据里的“大”,不能单单从存储、加工、管理角度去定义,可以从两个维度来看:数据量大或者数据涉及业务范围广。
现实中很多项目只是做了不同领域之间“很少量”数据的联动,他们也自称在做大数据产品/大数据项目,而且从现实需求方来看,他们认为数据可以互联互通,也是大数据了,所以我觉得没毛病~
当然,这里存在一个跟“数据量大”同样的问题,就是针对“业务范围广”没有具体标准~~anyway,数据“互联网”,就是大数据。
二、大数据相关
无论大数据怎么定义,不变的是“大数据”诞生的目标——用数据,现在主流的方式还是把数据先汇聚起来、经过一系列的加工、再根据需要使用,这个过程涉及的概念繁多,我按照采集>存储>计算>管理>应用这个流程挑了几个大家了解下:
(1)数据加工
》数据融合:是将来自不同数据源的数据进行整合和合并,以便进行更全面的分析和应用。
》数据清洗和预处理:是指对大数据进行清理和整理,以便进行更准确的分析和应用。
》流批一体:数据的加工分流式处理和批式处理,流批一体结合了批处理和流处理的优势,实现了实时和批量数据处理的统一
(2)数据存储
》数据仓库:集中存储结构化数据,它用于支持决策制定和分析。
》数据湖:存储大量结构化和非结构化数据的存储库,这些数据未经整理,通常用于数据科学和大数据分析。
(3)数据计算
》云计算:是一种通过互联网提供计算资源和存储资源的服务,用于处理大数据。
》分布式计算:是一种将计算任务分布到多台计算机上进行处理的技术,用于加速大数据处理过程。
(4)数据管理
》数据加密:是指通过使用密码算法,将原始数据转化为密文的过程,以保护数据的安全性和隐私性。
》隐私计算:使用密码学技术、安全计算技术和数据脱敏技术来保护数据隐私。
(5)数据探索/应用
》数据接口:是用于在不同系统或应用程序之间交换数据的一种通信方式。
》数据可视化:是使用图表、图形和其他可视化手段来展示大数据分析结果,以便更好地理解和解释数据。
》数据挖掘:是使用统计分析、机器学习和模式识别等技术,从大数据中发现未知的模式、关系和趋势。
》机器学习:机器学习是一种人工智能领域的技术,通过训练模型来使计算机系统能够从数据中学习并做出预测和决策。
三、数据中台
从上述相关概念可以初步体验,海量数据被用起来的过程涉及技术非常多、也十分麻烦,如何让这些工作不重复且能高效运作?数据中台应用而生:
数澜科技给出的定义:数据中台是一套可持续“让企业的数据用起来"的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套可持续不断把数据变成资产并服务业务的机制。数据来源于业务、并反哺业务,不断循环迭代,实现数据可见、可用、可运营。
简单地说:数据中台是一套机制。
数据中台的核心目的是让数据采集>存储>计算>管理>应用这个过程可持续且高效运作,涵盖的能力非常之多:
数据中台解决方案图不同公司的数据中台能力可能会有区别,有的包含数据采集、数据开发、数据资产、数据服务等,也有的可能就包含数据加工和数据应用,总之能力不一而足吧。
另外,很多网文和宣传里经常说数据中台是个“平台”,可能获取更多“共识”,但实际上平台只是数据中台一种更加具象化的“系统产品”产物之一,数据中台还包含很多东西:
1.数据中台打造好之后,如果业务不变动,是可以脱离人力,保持数据可持续运行和输出的。
2.数据中台打造过程中,隐含或者带动了如流程、规范、制度、方法论等等内容的沉淀
3.数据中台打造过程中,隐性要求明确组织和角色的权限和职责、以及配合机制。
总之它是并不简简单单地是一套系统、一个数据库或工具库,实际上是一个解决方案。如果非要给一个更加具象化的输出物,我总结为如下:
工具库+可持续输出的数据+方法论+规范制度……
四、数据中台的未来?
数据中台的概念是出自阿里系,因为他们体量大、数据多,不过通过网上一些材料来看,将这个概念商业化的其实该是数澜科技,是一群来自阿里的大佬创建的公司:
数澜科技成立于2016年6月20日,是一家专业的数据应用基础设施供应商,秉持“让数据用起来”的使命,以一站式数据中台搭建基础设施“数栖”产品为核心,数据中台解决方案、数据可视化服务、数据智能解决方案等产品矩阵,为政府、企业提供咨询、技术支持、实施落地等一站式数据资产化与应用服务,助力客户商业智能创新。
他们出版了《数据中台:让数据用起来》,已经出版了两个版本了,同时官网也可以看到他们数据中台能力套件:
我觉得这是学习数据中台最权威的物料了,哈哈哈~~~
之前因为要给领导汇报建设“数据中台”产品体系的必要性,我去了解了很多信息,数据中台有市场需求应该要从2018末、2019年初开始,现在已经发展了这么多年了,已经有了固定模式,不过最近看了一个观点,跟我自己做这么多项目的感受相同,我觉得这个是数据中台下个阶段的趋势:
观点出自公众号文章《数仓已死?数据湖当立!》,大概的意思是随着业务的发展,需要快速响应需求,数据中台不再按照严格的路径实施了——先规划建模、再将数据加工成ODS>DWS>DWD>DWM不同分层的模型,用数的时候再按需加工DWA层,这些数据都存储在数据仓库(存储结构化数据)中;而是数据汇聚后,存储在数据湖(存储结构和非结构化数据),针对部分数据加工成宽表(DWS/DWD),用数的时候再按照需求加工DWA层~
这是我的解读,有兴趣的可以去研究下。
数据中台只是“大数据”发展一个阶段性成果或者一个小分支,数据中台的构建会耗费大量人力,我觉得未来AI人工智能的发展,可能会推翻“数据中台”或者帮助其更加快速地构建,目前已经有AI在数据加工、统计领域应用了。
想更加了解数据中台的小伙伴,欢迎留言交流~