数据仓库

第三章 设计数据仓库

2018-12-13  本文已影响11人  晨磊的微博

第三章 设计数据仓库

3.0 概述

3.1 从操作型数据开始(详细说明集成)

3.2 数据/过程模型与体系结构化环境

设计者需要明白过程模型与数据模型的适用范围及局限

3.3 数据仓库与数据模型

高层建模 ERD 集成范围定义模型的边界、多个ERD合成企业ERD
中层建模 DIS 每个实体都要建立DIS,主要数据分组(一次),二级数据分组(多次),连接器(实体建的关系),数据的类型(左线父右线子,可以多条线),每个数据分组一般对应一张表
底层建模 物理模型 性能优化:数据数组,表合并,冗余,分离,预格式化,预连接等
image.png

3.4 数据模型与迭代式开发(一致的数据模型)

数据库必定是迭代式开发(首先搞一部分,然后再另一部分,如此循环)
原因如下:

一致的数据模型


image.png

不一致的数据模型


image.png

3.5 规范化与反规范化

反规范化提高性能,减少IO

  1. 数据数组:
  2. 表合并:小表合并为大表
  3. 冗余:
  4. 分离:按访问频率分
  5. 引入预计算:
  6. 创造性索引或创造性概要文件
  7. 参照完整性管理:不方便实现

3.6 元数据

3.7 数据周期-时间间隔(数据同步的周期)

  1. 24小时最好,越少越贵
  2. 间隔24小时,不必在仓库系统中做操作处理,也不必在操作系统中做仓库处理

3.8 转换和集成的复杂性

本章作者列举了大量ETL时要处理的问题,不罗列了

3.9 数据仓库记录的触发(事件快照与时间快照)

PS :感觉3.6节的 数据仓库中的参照表管理 应该放到这更合理

3.10 概要记录

有时数仓的数据不满足稳定不常改变的标准,如:

概要记录的多种实现方式:

3.11 管理大量数据(感觉Inmon一直在重复)

3.12 创建多个概念记录

一句话,可以从一份细节数据中创建多个概念记录

3.13 从数据仓库环境到操作型环境

一句话,可以从仓库传数据到操作型系统

3.14 数据仓库数据的直接操作型访问(少)

限制

3.15 数据仓库数据的间接访问(多)

3.16 数据仓库数据的间接使用

3.17 星形连接(多维)

观点:在这一章中 Inmon 算是狠批了多维建模

  1. 没有原因的直接说多维只适合数据集市,因为数据集市是根据实际需求形成的,所以多维不适合数据仓库
  2. 这东西就好像在说,牛奶只能早上喝,因为早餐要摄入更高的蛋白质,所以牛奶不适合中午喝

3.18 支持操作型数据存储

4类操作型数据存储(ODS)

3.19 需求和Zachman框架(扎克曼)

数据 功能 网络 时间 目标
范围
企业模型
系统模型
技术模型
组件
功能系统

从 zachman 框架到数据仓库开发过程

graph LR
A[zachman框架 ] --> B(需求)
B --> C[数据模型]
C --> D[数据仓库]

3.20 小结

上一篇下一篇

猜你喜欢

热点阅读