数据仓库理论

2020-03-19  本文已影响0人  似水之星

数据仓库理论

一、数据仓库简介

1.1、 数据仓库

数据仓库为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。

1.2 、etl

1.3、 数据仓库的需求

基本需求

数据需求

数据转换的目的:统一数据类型、处理拼写错误、消除数据歧义、解析为标准格式等

1.4、 data vault

DataVault模型有中心表(Hub)、链接表(Link)、附属表(Satellite)三个主要组成部分。中心表记录业务主键,链接表记录业务关系,附属表记录业务描述。

二、数据转换与装载

2.1、数据清洗

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,提供一致性。

1、脏数据

2、数据清洗

3、渐变维

更新数据的方式:

三、维度表

四、事实表

事实表中的数字度量值可划分为可加、半可加、不可加三类

三种不同类型的事实表:

五、其他

上一篇 下一篇

猜你喜欢

热点阅读