数据仓库

2023-08-10  本文已影响0人  飞猪的浪漫

随着企业的发展,业务系统的数据不断激增,这些存储在企业业务数据库中(也就是关系型数据库Oracle,Microsoft SQL Sever,MySQL等)数据会随着时间的积累越来越多,会使业务数据库会有一定的负载,导致业务系统的运行效率低,且这些数据中有很大一部分是冷数据,而我们业务系统一般对我们近期的数据,也就是热数据调用的比较频繁,对冷数据使用频率较低。

同时随着企业数据驱动业务概念的兴起,企业需要将各业务部门的业务数据提取出来进行数据分析与挖掘,辅助高层进行分析与决策,但各部门需求的数据种类千差万别,接口错综复杂,过多的数据查询脚本以及接口的接入导致业务数据库的稳定性降低。

为了避免冷数据与历史数据的积压对我们业务数据库效能产生影响,企业需要定期将冷数据从业务数据库中转移出来存储到一个专门存放历史数据的仓库里面,各部门可以根据自身业务特性对外提供统一的数据服务,这个仓库就是数据仓库。

数据仓库(Data Warehoese)的特点:面向主题的、集成的、稳定的、反映历史数据变化的。

面向主题的:数据仓库是用来分析特点主题域的,所以说数据仓库是面向主题的。例如,电商行业的主题域通常分为交易域、会员域、商品域等。

集成的:数据仓库集成了多个数据源,同一主题或产品相关数据可能来自不同的系统不同类型的数据库,日志文件等。

稳定的:数据一旦进入数据仓库,则不可改变。数据仓库的历史数据是不应该被更新的,同时存储稳定性较强

反映历史数据变化的:数据仓库保存了长期的历史数据,这点相对OLTP的数据库而言。因为性能考虑后者统筹保存近期的热数据。

数据仓库将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。

如下图所示:各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。

什么是ETL?(extraction-transformation-load 抽取-转换-加载)

传统的数据仓库集成处理架构是ETL,利用ETL平台的能力,E=从源数据库抽取数据,L=将数据清洗(不符合规则的数据)、转化(对表按照业务需求进行不同维度、不同颗粒度、不同业务规则计算进行统计),T=将加工好的表以增量、全量、不同时间加载到数据仓库。

什么是ELT?(extraction-load-transformation抽取-加载-转换)

大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。

ELT是利用数据库的处理能力,E=从源数据库抽取数据,L=把数据加载到目标库的临时表中,T=对临时表中的数据进行转换,然后加载到目标库目标表中。

数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。

上一篇下一篇

猜你喜欢

热点阅读