1数据仓库生命周期_技术路线(读书笔记)
1. 技术路径

3.1技术架构设计

3.1.1后台架构

- ETL流程
ETL处理流程主要由4个步骤:从源系统中抽取数据(Extract)、清洗(cleaning)、一致化转化(conforming)、数据提交(delivering)到呈现服务器上,以及对ETL过程和后台环境进行管理(managing)。
过程中,需要进行的工作包括:对多种类型的源数据格式的理解,数据探查、数据清洗、单元测试、系统测试、进入生产环节、文档编写。
数仓开发过程有70%时间花费在ETL过程中。
- 抽取
根据业务需求,确定要抽取哪些数据、应用哪些筛选条件。数据抽取相关的ETL功能:数据探查、变化数据捕捉、抽取系统。
- 清洗和一致化
数据从源系统抽取后,进行清洗和一致化处理,将数据转换成对业务有价值、可使用的、高质量的状态。例如,将旧的活动编码转换成新的编码、为预售查询生成虚拟用户ID。
清洗和一致化阶相关的ETL服务:数据清洗系统、错误时间跟踪、审计维的创建、复制、一致化。
- 提交
在对数据进行了适当的清洗和校准后,ETL过程将数据提交给呈现服务器。本阶段的服务包括:缓慢变化维(SCD)管理器、代理键发生器、分级管理器、专用维度管理器、事实表生成器、代理键管道、多值桥接表生成器、延迟到达数据处理器、维度管理器系统、事表提供者系统、聚集生成器、OLAP多维数据集生成器、数据传播管理器。
- ETL管理服务
包括:作业调度器、备份系统、回复和重启、版本控制、版本迁移、工作流程监视、排序、沿袭和依赖、问题自调整、并行处理和管道处理、合规性管理器、安全性、元数据知识库。
- ETL数据存储
实际的数据存储取决于具体的业务需求、源系统的稳定性、数据抽取和转换过程的复杂性。根据具体情况,确定数据的存储形式、备份存储时间周期。
数据质量和存储:在ETL流程中解决数据质量问题,存储清洗之前和之后的版本,便于进行数据审计和验证。
3.1.2呈现服务器架构

1.呈现服务器要满足的业务需求:
- 支持访问所有主要业务过程数据
- 支持访问汇总数据和原子数据
- 支持单一来源的分析数据
- 设计细节原子数据维度模型:
- 建立基于原子层的业务过程维度模型。
- 建议将原子层数据存入维度模型,而不是规范模型中。原子层数据集使用企业总线举证定义的一致性维度和事实创建。因为维度模型是最好的用户访问模型,用户希望访问细节数据,便于跟踪维度随时间的变化情况。
- 建立在关系型数据库而不是OLAP引擎中,因为关系型数据库能提供数据管理功能、易于访问、灵活。
3.建设聚集和聚集导航器:
-
建立聚集逻辑层。改善汇总层性能,提高分析查询性能。可以在关系数据库、OLAP服务器或应用服务器上。
-
建立万聚集后,需要配套建立聚集导航器,用于优化查询速度。接收基于原子层维度模型的用户查询,如果查询可以使用较小的聚集表来应答,则重写查询并提交数据库引擎。此过程对用户是无感知的。
4.呈现服务器包含以下具体内容:
- 具有单一字段代理键的反规范化维度表
- 类型1、2和3的缓慢变化维
- 多值维和层次结构维
- 基于企业总线结构的一致性维度和事实
- 事务处理、周期快照和累计快照事实表
- 面向性能的聚集、星型索引、位图索引和OLAP
- 可选的实时BI应用程序专用热分区
3.1.3前台架构

- BI应用程序类型:直接访问查询、标注报表、分析性应用程序、仪表板和记分卡、数据挖掘和模型运营BI、BI门户和自定义前端、移动端、即时BI
- BI管理服务:元数据服务、安全服务、监控服务、查询管理、企业报表、web和门户服务。
- BI数据存储:存储的报表、应用程序服务器缓存、局部用户数据库、一次性的分析性数据存储、分析性应用程序产生的结果、下游系统、数据存储安全。
3.2设计应用程序架构步骤
1.收集架构相关需求:收集业务需求、了解技术环境。
2.创建架构含义文档:

3.创建架构模型
4.确定架构实现的各个阶段
5.设计和描述子系统
6.创建应用程序架构设计文档
7.设计评审
3.3产品的选择和安装
- 硬件:评估数据规模、需要的容量、并发查询的负载量、查询工作量情况、数据的吞吐量、服务器内存及CPU配置。
- DBMS平台:关系型DBMS引擎、OLAP引擎的选择?
- ETL工具选择:
- BI工具:数据访问、BI工具。