数据仓库工具箱—ETL34个子系统

2022-07-05  本文已影响0人  熊猫学猿

ETL系统架构有34个关键子系统构成。

获取:从源系统中收集原始数据并通常在所有明显的数据重构发生之前将收集的数据写到ETL环境的磁盘上。子系统1-子系统3用于支持获取过程。

子系统1:数据分析

数据分析是对数据的技术分析,包括对数据内容、一致性和结构的描述。

子系统2:变化数据获取系统

分离变化数据已允许可选择加载过程,而不是完全更新加载

获取原数据所有的变化(删除、更新和插入),包括由非标准接口所产生的变化

用变化原因标记变化了的数据,以区分对错误更正和真正的更新

利用其他的元数据支持合规性跟踪

尽早执行C D C(变化数据获取)步骤,最好是在大量数据传输到数仓仓库前完成

子系统3:获取系统

从源系统中获取数据通常可以采用两种方式,以文件方式或者以流方式

清洗及转换:将获取的源数据通过ETL系统的一系列处理步骤,改进从源系统获得数据的质量。将来自两个或多个数据源的数据融合,用于建立和执行一致性维度和一致性度量。子系统4-子系统8描述了支持清洗合转换工作所需要的结构。

子系统4:数据清洗系统

尽早诊断并分类数据质量问题

为获得更好的数据而对源系统及集成工作的需求

提供在ETL中可能遇到的数据错误的专门描述

获取所有数据质量错误以及随时间变化精确度量数据质量矩阵的框架

附加到最终数据上的质量可信度度量

子系统5:错误事件模式

错误事件模式是一种集中式的维度模式,其目的是记录ETL流水线中所有质量屏幕出现的错误事件

子系统6:审计维度装配器

审计维度是一种特殊的维度,用于在后端装配ETL

子系统7:重复数据删除系统

子系统8:一致性系统

一致性处理包含所有需要调整维度中一些或所有列的内容以与数据数据仓库中其他相同或类似的维度保持一致的步骤。

发布:物理构建并加载数据到展现服务器的目标维度模型中。子系统9-子系统21提供了将数据发布到展现服务器的功能。

子系统9:缓慢变化维度管理器

必须确定当已经存在于数据仓库中属性值发生变化时的处理方法

子系统10:代理键产生器

建议在所有纬度表中使用代理键,要实现这一工作,需要一个为ETL系统产生代理键的健壮的机制

管理:以一致的方法管理与ETL环境相关的系统和过程。子系统22-子系统35描述了用于支持ETL系统持续管理所需要的各种部件。

上一篇 下一篇

猜你喜欢

热点阅读