1数据仓库生命周期_技术路线(读书笔记)

2019-10-31  本文已影响0人  primal_d4ad

1. 技术路径

3.1技术架构设计

3.1.1后台架构

  1. ETL流程

ETL处理流程主要由4个步骤:从源系统中抽取数据(Extract)、清洗(cleaning)、一致化转化(conforming)、数据提交(delivering)到呈现服务器上,以及对ETL过程和后台环境进行管理(managing)。

过程中,需要进行的工作包括:对多种类型的源数据格式的理解,数据探查、数据清洗、单元测试、系统测试、进入生产环节、文档编写。

数仓开发过程有70%时间花费在ETL过程中。

  1. 抽取

根据业务需求,确定要抽取哪些数据、应用哪些筛选条件。数据抽取相关的ETL功能:数据探查、变化数据捕捉、抽取系统。

  1. 清洗和一致化

数据从源系统抽取后,进行清洗和一致化处理,将数据转换成对业务有价值、可使用的、高质量的状态。例如,将旧的活动编码转换成新的编码、为预售查询生成虚拟用户ID。

清洗和一致化阶相关的ETL服务:数据清洗系统、错误时间跟踪、审计维的创建、复制、一致化。

  1. 提交

在对数据进行了适当的清洗和校准后,ETL过程将数据提交给呈现服务器。本阶段的服务包括:缓慢变化维(SCD)管理器、代理键发生器、分级管理器、专用维度管理器、事实表生成器、代理键管道、多值桥接表生成器、延迟到达数据处理器、维度管理器系统、事表提供者系统、聚集生成器、OLAP多维数据集生成器、数据传播管理器。

  1. ETL管理服务

包括:作业调度器、备份系统、回复和重启、版本控制、版本迁移、工作流程监视、排序、沿袭和依赖、问题自调整、并行处理和管道处理、合规性管理器、安全性、元数据知识库。

  1. ETL数据存储

实际的数据存储取决于具体的业务需求、源系统的稳定性、数据抽取和转换过程的复杂性。根据具体情况,确定数据的存储形式、备份存储时间周期。

数据质量和存储:在ETL流程中解决数据质量问题,存储清洗之前和之后的版本,便于进行数据审计和验证。

3.1.2呈现服务器架构

1.呈现服务器要满足的业务需求:

  1. 设计细节原子数据维度模型:

3.建设聚集和聚集导航器:

4.呈现服务器包含以下具体内容:

3.1.3前台架构

3.2设计应用程序架构步骤

1.收集架构相关需求:收集业务需求、了解技术环境。
2.创建架构含义文档:

image.png

3.创建架构模型
4.确定架构实现的各个阶段
5.设计和描述子系统
6.创建应用程序架构设计文档
7.设计评审

3.3产品的选择和安装

  1. 硬件:评估数据规模、需要的容量、并发查询的负载量、查询工作量情况、数据的吞吐量、服务器内存及CPU配置。
  2. DBMS平台:关系型DBMS引擎、OLAP引擎的选择?
  3. ETL工具选择:
  4. BI工具:数据访问、BI工具。
上一篇 下一篇

猜你喜欢

热点阅读