简述:数据中台、数据仓库、数据湖
概述:
简述数据仓库、数据湖、数据中台的相关概念。
一、数据仓库:
1、定义:
数据仓库之父 W.H.Inmon 定义数仓:
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI);
2、数仓价值:
实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。从根本上帮助将公司的运营数据转化为高价值的可以获取的信息(或知识);
(1)高效的数组织形式
面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。
(2)时间价值
数据仓库的构建将大大缩短获取信息的时间,数据仓库作为数据的集合,所有的信息都可以从数据仓库直接获取,数据仓库的最大优势在于一旦底层从各类数据源到数据仓库的ETL流程构建成型,那么每天就会有来自各方面的信息通过自动任务调度的形式流入数据仓库,从而使一切基于这些底层信息的数据获取的效率达到迅速提升。
从应用来看,使用数据仓库可以大大提高数据的查询效率,尤其对于海量数据的关联查询和复杂查询,所以数据仓库有利于实现复杂的统计需求,提高数据统计的效率。
(3)集成价值
数据仓库是所有数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中,对于应用来说,实现各种不同数据的关联并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能。
(4)历史数据
数据仓库能够还原历史时间点上的产品状态、用户状态、用户行为等,以便于能更好的回溯历史,分析历史,跟踪用户的历史行为,更好地比较历史和总结历史,同时根据历史预测未来。
二、数据湖:
(1)数据湖发展
-
数据湖最早是2011年由Pentaho的首席技术官James Dixon提出的一个概念,他认为诸如数据集市,数据仓库由于其有序性的特点,势必会带来数据孤岛效应,而数据湖可以由于其开放性的特点可以解决数据孤岛问题。
-
需要数据能存,够存,有边界的存;
* 数据要可以长时间保存,且存储的介质要足够的大; * 数据存储需要边界;
-
湖水天然会进行分层,满足不同的生态系统要求,这与企业建设统一数据中心,存放管理数据的需求是一致的。热数据在上层方便流通应用,温数据、冷数据位于数据中心的不同存储介质之中,达到数据存储容量与成本的平衡。
(2)什么是数据湖:
-
数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施,存储企业原始数据 的大型仓库;
-
以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;
-
通过与各类外部异构数据源的交互集成,支持各类企业级应用。
-
数据湖与企业的关系,数据湖是企业挖掘数据价值,提升数据运营模型的重要手段;
(3)数据湖优劣势
优势:
① 统一收集数据
数据湖与数据仓库的一大区别就是,Schema On Read,即在使用数据时才需要Schema信息;而数据仓库是Schema On Write,即在存储数据时就需要设计好Schema。这样,由于对数据写入没有限制,数据湖可以更容易的收集数据。
② 开放的数据形式已于挖掘数据价值
数据湖存储所有最原始、最细节的数据,所以可以回答更多的问题。并且数据湖允许组织中的各种角色通过自助分析工具,对数据进行分析,以及利用AI、机器学习的技术,从数据中发掘更多的价值。
③ 消除数据孤岛
数据湖中汇集了来自各个系统中的数据,这就消除了数据孤岛问题;
④ 具有更强的拓展性
依托分布式数据存储,具备更容易的拓展性;
劣势:
① 存储成本大 -- 海量数据入湖,需要大量的存储资源;
② 入湖数据治理难度大
随着入湖数据的体谅不断增大,对数据质量、数据管理、业务定义的挑战随之增大
③ 数据安全管控风险大
目前数据湖正在大兴土木的建设,还未沉淀出专业的建设的专业方法论;
④ 缺乏数据湖管控工具
数据湖建设之后,数据入湖,数据清退,数据变更,数据管控都需要依托相关工具,建设成本较大;
(4)数据湖建设风险
① 数据沼泽
当越来越多的数据接入到数据湖中,但是却没有有效的方法跟踪这些数据,数据沼泽就发生了。在这种失败中,人们把所有东西都放在HDFS中,期望以后可以发掘些什么,可没多久他们就忘那里有什么。
② 数据泥团
数据接入进数据湖中,它们的组织形式、质量都不一样。 由于缺乏用于检查,清理和重组数据的自助服务工具,使得这些数据很难创造价值;
③ 缺乏建模的方法论和工具
④ 数据安全管理
三、数据中台
1、概述数据中台:
- 数据中台的使命是通过全局规划来治理和运营企业的数据资产,让数据使用者能高效的获取可靠有效的数据。
- 数据中台逐渐成长为各行各业发展的基石。它既是企业内部可复用的技术平台,同时也是企业能力的沉淀平台。
- 赋能:企业在发展过程中,所有沉淀下来的技术、数据都可以经由数据中台赋能给企业的不同部门甚至是上下游合作伙伴,实现组织能力的共享共用
- 降本增效:从组织角度看,数据中台可以提升效率、降低成本,可以有效解决企业组织结构臃肿的问题,让企业得以更灵活地迎战未来。
2、数据中台定义:
- 数据中台不是数据平台,是处于业务前台与技术后台的中间层,是对业务提供数据能力的抽象和共享的过程;
- 数据中台通过将企业的数据变成数据资产,并提供数据能力组件,和运行机制,形成聚合数据接入、集成、清洗加工、建模处理、挖掘分析,并以共享服务的方式将数据提供给业务端使用,从而与业务产生联动,而后结合业务系统的数据生产能力,最终构建数据生产>消费>再生的闭环,通过=这样持续使用数据、产生智能、反哺业务从而实现数据变现的系统和机制
3、数据中台建设背景
- 业务需求:业务高速发展,业务矩阵、产品不断增加,数据需求响应不及时,需要提供标准化、模块化的服务能力,及时支撑业务数据需求;
- 资源管控疏松,烟囱式建设数据平台,资源浪费;
- 数管管控/数据治理的需要
4、建设意义
(1)帮助建立数据标准
构建数据中台,倒逼企业构建数据接入规范、数据集成规范、数据存储规范、数据处理规范、数据使用权限规范、数据共享规范、数据销毁规范、数据安全规范等数据标准;
(2)赋能业务,实现降本增效
-
降本:数据中台通过复用数据能力组建,快速完成数据链路的搭建,减少重复研发的人力和维护成本;
-
增效:快速响应业务数据需求;
(3)促进数据组织建设
- 数据中台这种体系化工程将横向拉通企业数据的相关方,包括中台建设团队、中台运维团队、数据产品经理团队、数据运营团队等,形成企业真正的数据组织;
四、数据中台与数据仓库的区别:
1、概念区分:
-
数据仓库 : 位于多个数据库上的容量存储库,作用是存储大量的结构化数据 ,并能进行频繁的重复计算和分析,帮助企业构建BI;
-
数据中台:数据中台是一套持续管理和运营的体系,包含了顶层数据战略,数据治理,数据管控,数据运营,数据挖掘等;数据中台是加速企业从数据到业务价值的过程的中间层;
数据中台 是将数据进行服务化;
2、多维度分析:
(1)数据来源不同
传统数据仓库以业务数据库的结构化数据为主,也就是具备行和列结构数据,比如表格;而数据中台既不是工具又不是存储,它可以包含数据仓库;
(2)建模方法不同
数据仓库往往采用自顶向下的建设模式,需要以明确的业务分析驱动,延续性不高,而数据中台采用自底向上的方式,能结合业务需求变化不断迭代升级,离业务侧更近;
(3)建设目标不同
数据仓库以输出某个业务主题的BI报表和决策为主,目的性单一,数据中台则主张打通全域数据孤岛,消除数据标准和口径不一致的问题,释放业务方数据应用价值;
(4)数据应用不同
数据仓库主要针对管理决策等分析类场景,在其他方面则存在局限性,比如数据建模、数据追踪与探查、深度挖掘等。数据中台通过将数据服务化之后提供给业务系统,在数据应用上不仅限于分析型场景,也适用于交易类场景,比如营销推荐、风险评估等;
五、数据湖与数据仓库
- 开放性:开放更容易接受新的观点,拥抱变化,用户打破常规,创造新的价值;
- 有序性:采取已经证明是成功的模式,是一种稳妥的方式,可以排除掉未知风险;
1、开放性 --> 数据湖
开放性是指向数据湖的,数据湖中的数据是不受限制的,数据湖中存在各种格式的数据,可以通过运营模型发现新的数据价值,便于进行各种数据实验,但因为确认数据结构,在数据量较大时,对数据模型(挖掘模型,运营模型,融合模型等),而且数据治理难度较大,数据稍显混乱;
2、有序性 --> 数仓上
在数仓中,数据模型是统一管理的,数据更易于使用;