2数据仓库生命周期_数据路线（读书笔记）

2019-11-06 本文已影响0人 primal_d4ad

数据路径

4.1维度建模

分析收集到的业务访谈需求，画出详细的业务流程图，确定命名约定。
根据业务需求、业务流程图，分析得到业务过程涉及的维度、事实，建设一致性维度，建设数据仓库总线矩阵，确立数据架构。
从总线举证派生初始图形模型，确定设计范围、明确事实表粒度，明确每个事实表的主要维度，明确所有需要补充调查的问题，得到高层模型图。然后针对每个表进行组装，并向下钻取到定义、数据源、关系、数据质量问题和所需的转换。
最后，与业务方审查和验证模型。通过多次测试直到模型满足业务需求，则完成设计。
关键提交物：高层模型图、属性和度量列表、详细维度设计工作表、问题列表。

4.1.1关键提交物

得到的设计文档包括：

业务过程简要描述。
高层数据模型图。
属性和度量列表
每个维度表和事实表的详细维度设计工作表
公开问题列表，突出标识尚未解决的问题

4.1.2组件建模团队

有效控制风险和工作量的key point：

4.1.3维度模型建模步骤

1.选取业务过程

2.声明粒度

3.识别维度

4.识别事实

4.1.4建设高层维度模型

高层模型显示了一个给定的业务过程的具体事实和维度表。便于和业务人员、干系人沟通、讨论，是详细设计的切入点。

1.召开设计会议：

2.直接目标是创建高层维度模型图，对业务过程中的维度表和事实表的图形描述，接着为维表创建初始属性列表、为事实表创建度量。

3.为高层模型图编制文档：

4.识别维度和度量：

完成高层模型后，开始维度和度量的识别。按照4步骤推动设计，对业务过程的维度属性进行初始化，接着是事实表的度量。

得到初始维度和度量清单：

4.1.5建设详细维度模型

详细的维度模型设计阶段，填补高层模型缺失的信息，解决设计问题，不断测试模型是否满足业务需求。从每张表、每一列定义详细的维度模型。每次只关注1~2张表。从维度表开始，然后处理事实表。建议从简单、易懂的维度开始，例如日期维度。

1.识别元数据：

找出适用于填充目标设计模型的源数据。

2.了解候选数据源：

为每个维度和事实表明确数据源。了解候选数据源，从需求中、总线矩阵中识别数据源，得到候选数据源列表。

3.数据探查和选定数据源

根据候选数据源列表，评估每个数据源，确定最佳数据源。收集并审查可用的源系统文档，如数据模型、文件定义、记录格式、书面文档和源系统程序。基本数据源的选择参考：数据可访问性、数据供给的持久性、数据准确性。

数据探查是对数据源内容的系统分析，涉及的范围从计算字节数、检查基数到检查数据是否满足DW/BI的要求等更为深入的分析。数仓迭代过程中，每个数据源都需要进行详细的数据探查，且探查结果有助于选择最优源系统。数据探查是一系列的测试：

对单个字段的探查，检查内容是否和基本数据定义及定义域声明一致，有多少行赋有空值或背离定义域的内容。
调查不同字段间的关系，使用结构筛选法，显示数据表中的键，与高层的多对多关系形成的层级。
检查键值的唯一性。
检查表和表之间的关系，主键和外键间的关系，是否出现没有子类的父类。
检查企业中特有的复杂业务规则。

数据探查的结果：

确认候选数据可行/不可行。
在数仓建设前发现并修复源系统的问题。
从源系统抽取数据时，通过ETL过程修正数据质量问题。
发现未预料到的业务规则、层次结构和外键-主键关联。

4.确定一致性维度

在详细设计中，定义关键的一致性维度。对企业各部门的表及属性命名、描述和定义达成共识，便于后期用户对维度模型的理解和接受。

5.确定基本事实和导出事实

根据业务需求，定义度量、整理事实信息文档，包括基本事实、导出事实，导出事实中的可加事实、非可加事实（累积事实、比率）。

在ETL过程设计前，定义完所有基本事实。

对于导出事实，明确支持导出事实计算所需要的基本事实，并记录在文档中。

6.为详细表设计编制文档

详细建模阶段的关键提交物是详细设计工作表。

每个维度和事实表都对应一个单独的详细表设计。包括属性/事实名、描述、样值，每个维度属性都对应一个缓慢变化维类型标识。
详细事实表设计要明确外键关系、恰当的退化维和每个事实的规则，规则说明事实是可加、半可加、不可加。
在详细设计过程中，捕捉用户所期望的属性和事实，发掘在初期没有发现的属性和事实。
将设计过程中做好记录，包括发现的问题、定义、转换规则和数据质量问题、使用到的特殊设计方法（杂项维、小型维、桥接表）。

7.更新总线矩阵识别和解决建模问题

详细建模过程中，会发现业务过程新的信息，可能引入新事实、维度，维度的分割或组合灯。因此在设计过程中，要及时更新总线举证，便于与其他人员沟通时使用的总线矩阵是符合实际的最新信息。

8.识别和解决建模问题

详细设计中发现的问题，可能会导致高层模型的修改，对源系统的分析可以揭示出原先没有发现的有利因素和约束，可能会产生一些维度的设计决策，可能导致事实表粒度的改变或者产生新的事实表，也可能会发现一些新的业务需求。

在建模过程中发现问题时，应该及时对这些问题进行跟踪并找出相关的解决方案。及时记录问题，并确认问题的分配。

4.1.6审查和验证模型

完成详细设计后，金融模型审查和验证阶段。设计团队需要与三个团体进行讨论：

1. 源系统开发人员、数据库管理人员；

数据模型审查，与对源系统业务过程属性的IT同事共同进行。

第一，要明确维度建模分析与实务处理的不同，解释维度建模相关理念。
第二，审查总线矩阵，了解项目范围和全局数据架构，论证一致性维度，给出业务过程优先级，解释高层模型。
第三，逐个检查维度表和事实表。
第四，审查尚未解决的问题。

2. 没有直接参与模型开发的核心业务用户；

基本过程与IT讨论类似，核心用户关注模型的业务细节，小型机构中可以与IT讨论一起完成。

3. 向业务用户介绍；

基本过程与IT讨论类似。此外，通过实例问题，一步步向业务人员介绍维度模型如何支持业务需求。

4.2物理设计

由于项目、平台之间的差异，物理实现的细节也会有所差异，项目的数据量是主要的驱动因素之一，尽管业务需求和逻辑设计都是相同的，但是完成一个TB数据量的数据仓库的物理设计远比设计一个GB数据量的数据库更复杂。

4.2.1关键提交物

物理数据模型
最终的源到目标映射表
初步的索引方案
OLAP数据库设计
聚集方案
分区方案

4.2.2团队建设

保证质量的关键：

4.2.3制定标准

DW/BI系统中的各个组件，需要在全系统内制定统一标准并遵守统一标准。包括：

统一命名约定
字段是否为空&处理方式
设置登台表
制定文件位置标准
对用户访问的表使用代用名或者视图
确定主键数据类型与生成规则

4.2.4设计物理数据模型&创建开发数据库

设计物理数据结构
确定源到目标的映射
使用数据建模工具
进行初步的规模估计
创建开发数据库

4.2.6设计处理数据存储

其他类型的表作为整个BI系统的一部分来进行设计和部署：

支持ETL系统的登台表
用于ETL处理和数据质量的审计表
用于监视用户访问情况的访问监视表
安全表

4.2.7设计初始索引方案

为维度表建立索引。主键建立唯一索引，常用作筛选条件的属性列建立位图索引或row header。不支持位图索引的可以建立b树索引。为每个用于链接、筛选的列或列分组建立单独的索引。
为事实表建立索引。事实表首选索引是建立在主键上的B-tree索引或聚簇索引。
为装载数据建立索引。保证系统装载和维护周期尽可能的短。
为OLAP建立索引。创建维度关系数据库，作为OLAP输入针对维度关系数据库上执行的用于维度处理、完全多维数据集处理和增量多维数据集处理的查询，为关系数据仓库添加索引，使之支持OLAP处理。
装载后分析表和索引，对表和索引进行分析便于设计高效的查询方案。

4.2.8设计聚集

聚集就是通过执行含有Group by字句的SQL查询生成的汇总表。

通过监视查询，确定聚集设计的内容，将聚集的规模与使用情况相平衡。
维护聚集。创建完成后，随时时间的推移维护聚集。

4.2.9设计物理存储结构

计算表和索引的大小
设计分区方案
设置数据存储方案。

4.3ETL设计和开发

维度表转储处理
事实表转储处理