数据仓库(一)
### 概念 ###
数据仓库:一个面向主题、集中式、相对稳定、反映历史变化的数据集合 。可用于支持管理决策及面向分析型数据处理,并不同于现有的企业操作型数据库。同时也是多个异构数据源的有效集成,一旦集成则按照主题进行重组,包含历史数据,而存放在数据仓库的数据一般很少修改。其特点如下:
- 面向主题
传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
- 集成的
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
- 相对稳定的
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
- 反映历史变化
操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
一般数据仓库系统通常由数据源、数据存储与管理、数据访问构成。
通用数据仓库系统1、数据源: 可以是企业内部实际生产运营数据及基础管理数据,甚至调查数据、市场信息等外部数据。
2、数据存储与管理:一般会包括元数据和实际数据的存储;元数据也是所谓的数据的数据,涉及到数据字典、数据定义、数据抽取规则、数据转换规则、数据加载频率等,而真实数据都会经过元数据定义的规则完成etl过程,按照主题进行重组,并依照对应的存储结构进行存储(注:有时候会按照应用建立一些数据集市,包含较少的主题域历史时间短数据少)
3、数据查询
一般由OLAP、数据挖掘、即席查询等,其中OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。按照存储方式来分, OLAP可以分成MOLAP以及ROLAP等方式,MOLAP (Multi-Dimension OLAP)将OLAP分析所需的数据存放在多维数据库中。分析主题的数据可以形成一个或多个多维立方体。 ROLAP (Relational OLAP)将OLAP分析所需的数据存放在关系型数据库中。分析主题的数据以“事实表-维表”的星型模式组织。
在实际应用中,企业信息工厂是一种常见的数据仓库建设架构。它主要包括集成转换层( I&T)、操作数据存储( ODS)、 企业级数据仓库( EDW)、数据集市( DM)、探索仓库( EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。
接下来我们会聊一聊数据仓库的“维”。。。