大数据,机器学习,人工智能Hadoop

从0开始学大数据-数据仓库理论篇

2019-07-22  本文已影响24人  digger30

什么是数据仓库

数据仓库DW)是一个 面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程

建立数据仓库的目的是为企业高层系统地组织、理解和使用数据以便进行战略决策。

image

数据仓库的特征

数据仓库有以下几大特征:

(1)面向主题

主题是指用户使用数据仓库进行决策时所关心的重点领域。数据仓库通过一个个主题将多个业务系统的数据加载到一起,为了各个主题(如:用户、订单、商品等)进行分析而建,操作型数据库是为了支撑各种业务而建立。

(2)集成性

数据仓库会将不同源数据库中的数据汇总到一起,但是并不是简单的复制,而是经过了抽取、筛选、清理、转换、综合等工作。

(3)稳定性即非易失的

数据仓库的数据是为了企业数据分析而建立,所以数据被加载后一般会保存较长时间。数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不会经常进行修改、添加等操作。

(4)随时间而变化即时变的

数据仓库存储的是历史数据,它会定期从操作型应用系统中接收新的数据。所以数据仓库中的数据一般都有个时间维度。数据仓库实际是记录了系统的各个瞬时,并通过瞬态连接起来形成动画(即数据仓库的快照集合),从而在数据分析时再现系统运动的全过程。

为什么使用数据仓库

通常数据仓库的数据是来自各个业务应用系统,然后业务系统中的数据形式是多种多样的,可能是Oracle、MySQL、SQL Server 等关系数据库里的结构化数据,也有可能是文本、CSV 等平面文件或Word、Excel 文档中的非结构化数据,还有可能是 HTML、XML 等自描述的半结构化数据。这些数据经过一系列的 数据抽取转换清洗,最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源,提供给后面的 即系查询分析系统数据集市报表系统数据挖掘系统等。

使用数据仓库有以下好处:

数据仓库与传统数据库的区别

数据仓库虽然是从传统数据库系统发展而来,但是两者还是存在着诸多差异。

image

数据仓库系统组成

数据仓库系统以数据仓库为核心,将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,通过数据分析与报表模块的查询和分析工具 OLAP (联机分析处理)、决策分析、数据挖掘完成对信息的提取,以满足决策的需要。

整个数据仓库系统分为:源数据层、数据存储和管理层、OLAP 服务器层、前端分析工具层。

数据仓库系统体系结构

数据仓库系统各组成部分:

ETL

ETL 用来描述 数据抽取清洗转换加载 的过程。ETL按照统一的规则集成并提高数据的质量,是将数据从数据源向目标数据仓库(DW)转化的过程。ETL 是商务智能/数据仓库的核心和灵魂。

1. 数据抽取

数据抽取是从各个不同的数据源抽取数据并存储到操作数据存储(Operational Data Store,ODS)中的过程。

2. 数据清洗转换

数据清洗转是指按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来。

数据清洗转换包括 数据清洗数据转换 两个过程。

3. 数据装载

数据装载是指将清洗转换完的数据加载到数据仓库中。数据加载的方式主要有:

数据集市

数据集市(Data Mart)是完整的数据仓库的一个子集,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可以成为部门数据或主题数据。而数据仓库正式由其所有的数据集市有机组合而成的的。且各数据集市间应协调一致,满足整个企业分析决策的需要。

建立数据集市与数据仓库,一般是采用 "自顶向下" 和 “自下而上” 相结合的设计思想。

数据仓库和数据集市的区别

OLTP vs OLAP

OLTP

OLTP(联机事务处理) 是传统关系型数据库的重要应用之一,主要是基本的、日常的事务处理,对响应要求比较高,强条的是密集数据的更新处理的性能和系统的可靠性及效率。

OLTP 是事件驱动、面向应用的。

OLTP主要特点:

OLAP

OLAP(联机分析处理) 是一种多维分析技术,用来满足决策用户在大量的业务数据中,从多角度探索业务活动的规律性、市场的运作趋势的分析需求,并辅助他们进行战略发展决策的制定。

OLAP 系统按照数据存储方式可以分为:

OLAP 工具是针对特定问题的联机数据访问与分析,它通过多维的方式对数据进行分析、查询和报表。

多维分析是指对以多维形式组织起来的数据采取切片、切换、钻取、旋转等各种分析动作,以求剖析数据,使用户能从多个角度、多个侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。

OLTP 和 OLAP 对比

image image image

推荐阅读:

上一篇下一篇

猜你喜欢

热点阅读