数据仓库

简述:数据中台、数据仓库、数据湖

2022-07-18  本文已影响0人  傻子般白痴

概述:

简述数据仓库、数据湖、数据中台的相关概念。

一、数据仓库:

1、定义:

数据仓库之父 W.H.Inmon 定义数仓:

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI);
2、数仓价值:

实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。从根本上帮助将公司的运营数据转化为高价值的可以获取的信息(或知识);

(1)高效的数组织形式
面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。 
(2)时间价值
数据仓库的构建将大大缩短获取信息的时间,数据仓库作为数据的集合,所有的信息都可以从数据仓库直接获取,数据仓库的最大优势在于一旦底层从各类数据源到数据仓库的ETL流程构建成型,那么每天就会有来自各方面的信息通过自动任务调度的形式流入数据仓库,从而使一切基于这些底层信息的数据获取的效率达到迅速提升。
从应用来看,使用数据仓库可以大大提高数据的查询效率,尤其对于海量数据的关联查询和复杂查询,所以数据仓库有利于实现复杂的统计需求,提高数据统计的效率。 
(3)集成价值
数据仓库是所有数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中,对于应用来说,实现各种不同数据的关联并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能。
(4)历史数据
数据仓库能够还原历史时间点上的产品状态、用户状态、用户行为等,以便于能更好的回溯历史,分析历史,跟踪用户的历史行为,更好地比较历史和总结历史,同时根据历史预测未来。 

二、数据湖:

(1)数据湖发展
(2)什么是数据湖:
(3)数据湖优劣势

优势:

① 统一收集数据

数据湖与数据仓库的一大区别就是,Schema On Read,即在使用数据时才需要Schema信息;而数据仓库是Schema On Write,即在存储数据时就需要设计好Schema。这样,由于对数据写入没有限制,数据湖可以更容易的收集数据。

② 开放的数据形式已于挖掘数据价值

数据湖存储所有最原始、最细节的数据,所以可以回答更多的问题。并且数据湖允许组织中的各种角色通过自助分析工具,对数据进行分析,以及利用AI、机器学习的技术,从数据中发掘更多的价值。

③ 消除数据孤岛

数据湖中汇集了来自各个系统中的数据,这就消除了数据孤岛问题;

④ 具有更强的拓展性

依托分布式数据存储,具备更容易的拓展性;

劣势:

① 存储成本大 -- 海量数据入湖,需要大量的存储资源;

② 入湖数据治理难度大

随着入湖数据的体谅不断增大,对数据质量、数据管理、业务定义的挑战随之增大

③ 数据安全管控风险大

目前数据湖正在大兴土木的建设,还未沉淀出专业的建设的专业方法论;

④ 缺乏数据湖管控工具

数据湖建设之后,数据入湖,数据清退,数据变更,数据管控都需要依托相关工具,建设成本较大;

(4)数据湖建设风险

数据沼泽

当越来越多的数据接入到数据湖中,但是却没有有效的方法跟踪这些数据,数据沼泽就发生了。在这种失败中,人们把所有东西都放在HDFS中,期望以后可以发掘些什么,可没多久他们就忘那里有什么。

数据泥团

数据接入进数据湖中,它们的组织形式、质量都不一样。 由于缺乏用于检查,清理和重组数据的自助服务工具,使得这些数据很难创造价值;

缺乏建模的方法论和工具

数据安全管理

三、数据中台

1、概述数据中台:
2、数据中台定义:
3、数据中台建设背景
4、建设意义

(1)帮助建立数据标准

构建数据中台,倒逼企业构建数据接入规范、数据集成规范、数据存储规范、数据处理规范、数据使用权限规范、数据共享规范、数据销毁规范、数据安全规范等数据标准;

(2)赋能业务,实现降本增效

(3)促进数据组织建设

四、数据中台与数据仓库的区别:

1、概念区分:
2、多维度分析:
(1)数据来源不同
传统数据仓库以业务数据库的结构化数据为主,也就是具备行和列结构数据,比如表格;而数据中台既不是工具又不是存储,它可以包含数据仓库;
(2)建模方法不同
数据仓库往往采用自顶向下的建设模式,需要以明确的业务分析驱动,延续性不高,而数据中台采用自底向上的方式,能结合业务需求变化不断迭代升级,离业务侧更近;
(3)建设目标不同
数据仓库以输出某个业务主题的BI报表和决策为主,目的性单一,数据中台则主张打通全域数据孤岛,消除数据标准和口径不一致的问题,释放业务方数据应用价值;
(4)数据应用不同
数据仓库主要针对管理决策等分析类场景,在其他方面则存在局限性,比如数据建模、数据追踪与探查、深度挖掘等。数据中台通过将数据服务化之后提供给业务系统,在数据应用上不仅限于分析型场景,也适用于交易类场景,比如营销推荐、风险评估等;

五、数据湖与数据仓库

  • 开放性:开放更容易接受新的观点,拥抱变化,用户打破常规,创造新的价值;
  • 有序性:采取已经证明是成功的模式,是一种稳妥的方式,可以排除掉未知风险;
1、开放性 --> 数据湖

开放性是指向数据湖的,数据湖中的数据是不受限制的,数据湖中存在各种格式的数据,可以通过运营模型发现新的数据价值,便于进行各种数据实验,但因为确认数据结构,在数据量较大时,对数据模型(挖掘模型,运营模型,融合模型等),而且数据治理难度较大,数据稍显混乱;

2、有序性 --> 数仓上

在数仓中,数据模型是统一管理的,数据更易于使用;

上一篇下一篇

猜你喜欢

热点阅读