2数据仓库生命周期_数据路线(读书笔记)

2019-11-06  本文已影响0人  primal_d4ad

数据路径

4.1维度建模

4.1.1关键提交物

得到的设计文档包括:

4.1.2组件建模团队

有效控制风险和工作量的key point:


4.1.3维度模型建模步骤

1.选取业务过程

2.声明粒度

3.识别维度

4.识别事实

4.1.4建设高层维度模型

高层模型显示了一个给定的业务过程的具体事实和维度表。便于和业务人员、干系人沟通、讨论,是详细设计的切入点。

1.召开设计会议:

2.直接目标是创建高层维度模型图,对业务过程中的维度表和事实表的图形描述,接着为维表创建初始属性列表、为事实表创建度量。

3.为高层模型图编制文档:


4.识别维度和度量:

完成高层模型后,开始维度和度量的识别。按照4步骤推动设计,对业务过程的维度属性进行初始化,接着是事实表的度量。

得到初始维度和度量清单:

4.1.5建设详细维度模型

详细的维度模型设计阶段,填补高层模型缺失的信息,解决设计问题,不断测试模型是否满足业务需求。从每张表、每一列定义详细的维度模型。每次只关注1~2张表。从维度表开始,然后处理事实表。建议从简单、易懂的维度开始,例如日期维度。

1.识别元数据:

找出适用于填充目标设计模型的源数据。

2.了解候选数据源:

为每个维度和事实表明确数据源。了解候选数据源,从需求中、总线矩阵中识别数据源,得到候选数据源列表。

3.数据探查和选定数据源

根据候选数据源列表,评估每个数据源,确定最佳数据源。收集并审查可用的源系统文档,如数据模型、文件定义、记录格式、书面文档和源系统程序。基本数据源的选择参考:数据可访问性、数据供给的持久性、数据准确性。

数据探查是对数据源内容的系统分析,涉及的范围从计算字节数、检查基数到检查数据是否满足DW/BI的要求等更为深入的分析。数仓迭代过程中,每个数据源都需要进行详细的数据探查,且探查结果有助于选择最优源系统。数据探查是一系列的测试:

数据探查的结果:

4.确定一致性维度

在详细设计中,定义关键的一致性维度。对企业各部门的表及属性命名、描述和定义达成共识,便于后期用户对维度模型的理解和接受。

5.确定基本事实和导出事实

根据业务需求,定义度量、整理事实信息文档,包括基本事实、导出事实,导出事实中的可加事实、非可加事实(累积事实、比率)。

在ETL过程设计前,定义完所有基本事实。

对于导出事实,明确支持导出事实计算所需要的基本事实,并记录在文档中。

6.为详细表设计编制文档

详细建模阶段的关键提交物是详细设计工作表。



7.更新总线矩阵识别和解决建模问题

详细建模过程中,会发现业务过程新的信息,可能引入新事实、维度,维度的分割或组合灯。因此在设计过程中,要及时更新总线举证,便于与其他人员沟通时使用的总线矩阵是符合实际的最新信息。


8.识别和解决建模问题

详细设计中发现的问题,可能会导致高层模型的修改,对源系统的分析可以揭示出原先没有发现的有利因素和约束,可能会产生一些维度的设计决策,可能导致事实表粒度的改变或者产生新的事实表,也可能会发现一些新的业务需求。

在建模过程中发现问题时,应该及时对这些问题进行跟踪并找出相关的解决方案。及时记录问题,并确认问题的分配。

4.1.6审查和验证模型

完成详细设计后,金融模型审查和验证阶段。设计团队需要与三个团体进行讨论:

1. 源系统开发人员、数据库管理人员;

数据模型审查,与对源系统业务过程属性的IT同事共同进行。

2. 没有直接参与模型开发的核心业务用户;

基本过程与IT讨论类似,核心用户关注模型的业务细节,小型机构中可以与IT讨论一起完成。

3. 向业务用户介绍;

基本过程与IT讨论类似。此外,通过实例问题,一步步向业务人员介绍维度模型如何支持业务需求。

4.2物理设计

由于项目、平台之间的差异,物理实现的细节也会有所差异,项目的数据量是主要的驱动因素之一,尽管业务需求和逻辑设计都是相同的,但是完成一个TB数据量的数据仓库的物理设计远比设计一个GB数据量的数据库更复杂。


4.2.1关键提交物

4.2.2团队建设

保证质量的关键:


4.2.3制定标准

DW/BI系统中的各个组件,需要在全系统内制定统一标准并遵守统一标准。包括:

4.2.4设计物理数据模型&创建开发数据库

4.2.6设计处理数据存储

其他类型的表作为整个BI系统的一部分来进行设计和部署:

4.2.7设计初始索引方案

4.2.8设计聚集

聚集就是通过执行含有Group by字句的SQL查询生成的汇总表。

4.2.9设计物理存储结构

4.3ETL设计和开发

上一篇下一篇

猜你喜欢

热点阅读