数据仓库

第二章 数据仓库环境

2018-12-11  本文已影响9人  晨磊的微博

第一章 决策支持系统(DSS)的发展
第二章 数据仓库环境

第二章 数据仓库环境

2.0 数据仓库的4个特征

特性 说明
面向主题 区别与面向应用
集成的 需经过ETL的
非易失 批量载入和访问(快照,不进行一般意义的更新)
时变性 所有记录都有时间标志,说明其在哪个时间是准确的

2.1 数据仓库的结构(数据细节)

细节级别 所属层 记忆
早期细节级 DW 归档数据
当前细节级 DW 近1~2年等
轻度汇总级 MID
高度汇总级

2.2 面向主题(的特征)

特征 记忆
包含N个物理表
通过主键联系
可以不同介质存储

2.3 从第一天到第N天(进化,非一蹴而就)

2.4 粒度(设计的第一个主要问题)

粒度影响
数据量大小 粒度越小,存储越大
所能答的问题 粒度越小,能回答的问题越多
粒度的好处
不同人不同视角
一致性协调
灵活性
方便重构
未知需求

2.5 探查与数据挖掘

2.6 活样本数据库

2.7 分区设计方法(设计的第二个主要问题)

2.8 数据仓库中的数据组织

常见结构 说明 拓展
简单堆积文件 最常用 类似普通事实表
轮转综合文件 简单堆积的变种
简单直接文件 快照 类似维度建模中的累积快照
连续文件 类似于维度建模中的缓慢变化维

2.9 审计与数据仓库

原因
仓库中会突然出现数据
时间标定过程发生剧变
备份和恢复限制发生剧变
粒度处于最低级别

2.10 数据的同构/异构(存储、架构不同)

数据的划分标准

2.11 数据仓库中的数据清理

数据根本没有删除,而是上升到更高级汇总

删除 说明
进入轮转综合文件 就是汇总了呗
转移至低价存储 比如导入到OSS
真正删除 实在没用的就删了
层次转移 由ods到dw

2.12 报表与体系结构化环境

报表类型 举例 环境
操作型报表 每日订单明细 业务系统
数仓型报表 每日订单量 仓库

2.13 各种环境中的操作型窗口(操作型环境)

2.14 数据仓库中的错误数据

示例:7月1日账户A增加5000元,7月2日仓库生成了快照,但在8月15日发现错误了,不是5000元,而是750元,怎么修改呢?

序号 方法 描述 好处 坏处
1 更新历史数据 更新7月2日的数据 干净彻底 数据集被破坏,必须更新仓库,需进行很多修改
2 加入修正条目 8月16日加入两天数据,-5000,+750 最新数据的最好反映 需进行很多修改,规则复杂时候很难修复
3 不管历史,更正最新值 8月16日修正为 +750 准确反映余额 无法解释过去的错误,且需要对应用与过程进行约定

2.15 小结

总结 说明 记忆
特征 集成、主题、非易失、时变性 jzfs(近战法师)
数据设计的主要问题 分区、粒度、细节、异构、组织、清理、错误 fl.xyz.cc(clean,cuowu)
操作型系统的数据工作 操作型报表,操作型窗口
上一篇 下一篇

猜你喜欢

热点阅读