第四章 数据仓库中的粒度
2018-12-17 本文已影响14人
晨磊的微博
[TOC]
第四章 数据仓库中的粒度
4.0 概述
- 粒度的确定是数仓设计者和开发者所面对的重要问题
4.1 粗略估算(数仓大小)
- 建立数仓之初是对数据量级的估计
- 估计方法(对已知表)
步骤 | 说明 | |
---|---|---|
1 | 计算一行所占字节 | 最大值,最小值 |
2 | 1 年内的行数 | 最大值,最小值 |
3 | 5 年内的行数 | 最大值,最小值 |
4 | 表内关键字的大小 | 索引使用 |
5 | 行 x 行数 | 一年内的空间 |
6 | 重复其他表 |
4.2 规划过程的输入
一句话,上面的估计就是数仓最初的输入量,知道数量级就行了
4.3 溢出存储器中的数据
一句话,把不经常使用的低粒度数据归档,并提供归档数据的再访问
4.4 确定粒度级别
一句话,通过合理推测、和对需求进行预测确定仓库中留的数据粒度
4.5 一些反馈循环技巧
- 在知道需求的一半时,就可以尽快建立与DSS分析员的反馈循环了
4.6 确定粒度级别的几个例子
自己看吧
4.7 填充数据集市
一句话,仓库中的粒度至少是所有集市中的最小粒度
4.8 小结
太废话了