2数据仓库生命周期_数据路线(读书笔记)
数据路径
4.1维度建模
-
分析收集到的业务访谈需求,画出详细的业务流程图,确定命名约定。
-
根据业务需求、业务流程图,分析得到业务过程涉及的维度、事实,建设一致性维度,建设数据仓库总线矩阵,确立数据架构。
-
从总线举证派生初始图形模型,确定设计范围、明确事实表粒度,明确每个事实表的主要维度,明确所有需要补充调查的问题,得到高层模型图。然后针对每个表进行组装,并向下钻取到定义、数据源、关系、数据质量问题和所需的转换。
-
最后,与业务方审查和验证模型。通过多次测试直到模型满足业务需求,则完成设计。
-
关键提交物:高层模型图、属性和度量列表、详细维度设计工作表、问题列表。
4.1.1关键提交物
得到的设计文档包括:
-
业务过程简要描述。
-
高层数据模型图。
-
属性和度量列表
-
每个维度表和事实表的详细维度设计工作表
-
公开问题列表,突出标识尚未解决的问题
4.1.2组件建模团队
有效控制风险和工作量的key point:
4.1.3维度模型建模步骤
1.选取业务过程
2.声明粒度
3.识别维度
4.识别事实
4.1.4建设高层维度模型
高层模型显示了一个给定的业务过程的具体事实和维度表。便于和业务人员、干系人沟通、讨论,是详细设计的切入点。
1.召开设计会议:
2.直接目标是创建高层维度模型图,对业务过程中的维度表和事实表的图形描述,接着为维表创建初始属性列表、为事实表创建度量。
3.为高层模型图编制文档:
4.识别维度和度量:
完成高层模型后,开始维度和度量的识别。按照4步骤推动设计,对业务过程的维度属性进行初始化,接着是事实表的度量。
得到初始维度和度量清单:
4.1.5建设详细维度模型
详细的维度模型设计阶段,填补高层模型缺失的信息,解决设计问题,不断测试模型是否满足业务需求。从每张表、每一列定义详细的维度模型。每次只关注1~2张表。从维度表开始,然后处理事实表。建议从简单、易懂的维度开始,例如日期维度。
1.识别元数据:
找出适用于填充目标设计模型的源数据。
2.了解候选数据源:
为每个维度和事实表明确数据源。了解候选数据源,从需求中、总线矩阵中识别数据源,得到候选数据源列表。
3.数据探查和选定数据源
根据候选数据源列表,评估每个数据源,确定最佳数据源。收集并审查可用的源系统文档,如数据模型、文件定义、记录格式、书面文档和源系统程序。基本数据源的选择参考:数据可访问性、数据供给的持久性、数据准确性。
数据探查是对数据源内容的系统分析,涉及的范围从计算字节数、检查基数到检查数据是否满足DW/BI的要求等更为深入的分析。数仓迭代过程中,每个数据源都需要进行详细的数据探查,且探查结果有助于选择最优源系统。数据探查是一系列的测试:
-
对单个字段的探查,检查内容是否和基本数据定义及定义域声明一致,有多少行赋有空值或背离定义域的内容。
-
调查不同字段间的关系,使用结构筛选法,显示数据表中的键,与高层的多对多关系形成的层级。
-
检查键值的唯一性。
-
检查表和表之间的关系,主键和外键间的关系,是否出现没有子类的父类。
-
检查企业中特有的复杂业务规则。
数据探查的结果:
-
确认候选数据可行/不可行。
-
在数仓建设前发现并修复源系统的问题。
-
从源系统抽取数据时,通过ETL过程修正数据质量问题。
-
发现未预料到的业务规则、层次结构和外键-主键关联。
4.确定一致性维度
在详细设计中,定义关键的一致性维度。对企业各部门的表及属性命名、描述和定义达成共识,便于后期用户对维度模型的理解和接受。
5.确定基本事实和导出事实
根据业务需求,定义度量、整理事实信息文档,包括基本事实、导出事实,导出事实中的可加事实、非可加事实(累积事实、比率)。
在ETL过程设计前,定义完所有基本事实。
对于导出事实,明确支持导出事实计算所需要的基本事实,并记录在文档中。
6.为详细表设计编制文档
详细建模阶段的关键提交物是详细设计工作表。
-
每个维度和事实表都对应一个单独的详细表设计。包括属性/事实名、描述、样值,每个维度属性都对应一个缓慢变化维类型标识。
-
详细事实表设计要明确外键关系、恰当的退化维和每个事实的规则,规则说明事实是可加、半可加、不可加。
-
在详细设计过程中,捕捉用户所期望的属性和事实,发掘在初期没有发现的属性和事实。
-
将设计过程中做好记录,包括发现的问题、定义、转换规则和数据质量问题、使用到的特殊设计方法(杂项维、小型维、桥接表)。
7.更新总线矩阵识别和解决建模问题
详细建模过程中,会发现业务过程新的信息,可能引入新事实、维度,维度的分割或组合灯。因此在设计过程中,要及时更新总线举证,便于与其他人员沟通时使用的总线矩阵是符合实际的最新信息。
8.识别和解决建模问题
详细设计中发现的问题,可能会导致高层模型的修改,对源系统的分析可以揭示出原先没有发现的有利因素和约束,可能会产生一些维度的设计决策,可能导致事实表粒度的改变或者产生新的事实表,也可能会发现一些新的业务需求。
在建模过程中发现问题时,应该及时对这些问题进行跟踪并找出相关的解决方案。及时记录问题,并确认问题的分配。
4.1.6审查和验证模型
完成详细设计后,金融模型审查和验证阶段。设计团队需要与三个团体进行讨论:
1. 源系统开发人员、数据库管理人员;
数据模型审查,与对源系统业务过程属性的IT同事共同进行。
-
第一,要明确维度建模分析与实务处理的不同,解释维度建模相关理念。
-
第二,审查总线矩阵,了解项目范围和全局数据架构,论证一致性维度,给出业务过程优先级,解释高层模型。
-
第三,逐个检查维度表和事实表。
-
第四,审查尚未解决的问题。
2. 没有直接参与模型开发的核心业务用户;
基本过程与IT讨论类似,核心用户关注模型的业务细节,小型机构中可以与IT讨论一起完成。
3. 向业务用户介绍;
基本过程与IT讨论类似。此外,通过实例问题,一步步向业务人员介绍维度模型如何支持业务需求。
4.2物理设计
由于项目、平台之间的差异,物理实现的细节也会有所差异,项目的数据量是主要的驱动因素之一,尽管业务需求和逻辑设计都是相同的,但是完成一个TB数据量的数据仓库的物理设计远比设计一个GB数据量的数据库更复杂。
4.2.1关键提交物
-
物理数据模型
-
最终的源到目标映射表
-
初步的索引方案
-
OLAP数据库设计
-
聚集方案
-
分区方案
4.2.2团队建设
保证质量的关键:
4.2.3制定标准
DW/BI系统中的各个组件,需要在全系统内制定统一标准并遵守统一标准。包括:
-
统一命名约定
-
字段是否为空&处理方式
-
设置登台表
-
制定文件位置标准
-
对用户访问的表使用代用名或者视图
-
确定主键数据类型与生成规则
4.2.4设计物理数据模型&创建开发数据库
-
设计物理数据结构
-
确定源到目标的映射
-
使用数据建模工具
-
进行初步的规模估计
-
创建开发数据库
4.2.6设计处理数据存储
其他类型的表作为整个BI系统的一部分来进行设计和部署:
-
支持ETL系统的登台表
-
用于ETL处理和数据质量的审计表
-
用于监视用户访问情况的访问监视表
-
安全表
4.2.7设计初始索引方案
-
为维度表建立索引。主键建立唯一索引,常用作筛选条件的属性列建立位图索引或row header。不支持位图索引的可以建立b树索引。为每个用于链接、筛选的列或列分组建立单独的索引。
-
为事实表建立索引。事实表首选索引是建立在主键上的B-tree索引或聚簇索引。
-
为装载数据建立索引。保证系统装载和维护周期尽可能的短。
-
为OLAP建立索引。创建维度关系数据库,作为OLAP输入针对维度关系数据库上执行的用于维度处理、完全多维数据集处理和增量多维数据集处理的查询,为关系数据仓库添加索引,使之支持OLAP处理。
-
装载后分析表和索引,对表和索引进行分析便于设计高效的查询方案。
4.2.8设计聚集
聚集就是通过执行含有Group by字句的SQL查询生成的汇总表。
-
通过监视查询,确定聚集设计的内容,将聚集的规模与使用情况相平衡。
-
维护聚集。创建完成后,随时时间的推移维护聚集。
4.2.9设计物理存储结构
-
计算表和索引的大小
-
设计分区方案
-
设置数据存储方案。
4.3ETL设计和开发
-
维度表转储处理
-
事实表转储处理