数据仓库工具箱—ETL

2022-07-04  本文已影响0人  熊猫学猿

ETL(Extract Transformation Load)获取、转换、加载

ETL系统结构的建立始于处理一个最棘手的问题:需求综合。需求综合的含义是收集并理解所有已知的将会影响ETL系统的需求、现实和约束等

合规性:改变法律条文和报表需求要求多数组织严格地对待其报表并证明这些报表的数字是准备的、完整的且未被篡改的。应该列出所有的数据以及最终报表主题要遵守的法律限制。列出这些数据输入和数据转换步骤,需要维护“监管链”,显示并证明最终报表是来自发布的数据源的原始数据。列出的数据必须通过所控制的副本的安全性证明,无论是在线的还是离线的,列出所归档的数据副本,列出这些归档的预期使用周期

数据治理是高管们最关注问题。“我只有看到数据,才能更好地管理业务”。数据是他们工作的关键需求,多数组织理解其数据源是分布的,通常处于不同的地点,集成不同数据源是非常有必要的。不断增长的对合规性的需求意味着不仔细处理数据不可忽略或原谅

将那些已经知道的不中意的数据元素记录下来,描述是否与源系统达成共识以使在获取数据之前进行更正,列举数据分析间发现的那些需要在ETL过程中持续监控和标记的数据元素

严格的数据集成必须能够在数据达到数据仓库后端前,将组织中主要的事务系统集成

数据集成通常具有数据仓库中一致性维度和事实的形式。一致性维度意味着跨不同数据库建立公共维度属性,只有这样才能使用这些属性构建横向钻取报表。一致性事实意味着对公共业务度量达成一致,公共业务度量包括不同数据的关键性能指标,只有这样才能使用这些数据通过计算差异和比例开展数学比较工作

利用业务过程的总线矩阵建立一致性维度(总线矩阵的列)的优先级列表,对每个总线矩阵的行进行标注,指明参与列集成过程中的业务过程是否有明确的执行需求,以及是否由ETL小组负责这些业务过程

数据延迟需求对ELT架构具有较大的影响,高效的处理算法、并行化以及强大的硬件系统可以加快系统的面向批处理的数据流。列举所有合法的和审核过的针对以日为基础或者以天为基础多次发生、以秒为基础或者即使提供的数据的业务需求,标注每个需求,明确业务团体是否了解他们的特定选择相关的数据质量的权衡

ETL系统的架构必须从批处理方式转换为微批处理方法或面向流处理方法

上一篇下一篇

猜你喜欢

热点阅读