读DAMA数据管理知识体系指南23数据集成概念(上)

2025-03-17  本文已影响0人  躺柒
读DAMA数据管理知识体系指南23数据集成概念(上).png

1. 数据集成和互操作

1.1. 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程

1.2. 数据集成是将数据整合成物理的或虚拟的一致格式

1.3. 数据互操作是多个系统之间进行通信的能力

1.4. 管理职能

1.5. 依赖于数据管理的其他领域

1.6. 数据集成和互操作对数据仓库和商务智能、参考数据和主数据管理至关重要,因为所有这些都关注数据从源系统转换和集成到数据中心,以及从数据中心到目标系统,最终交付给数据消费者(人和系统)的过程

1.7. 数据集成和互操作是新兴大数据管理领域的核心

2. 业务驱动因素

2.1. 主要目的是为了对数据移动进行有效管理

2.2. 主要责任就是管理数据在组织内部的存储库与其他组织之间的双向流动过程

2.3. 每个购买的应用程序都有自己的一组主数据存储、交易数据存储和报表数据存储,这些数据存储必须与组织中的其他数据存储集成

2.4. 对企业来说,管理数据集成的复杂性以及相关成本是建立数据集成架构的原因

2.5. 数据仓库和主数据解决方案,如数据中心(Data Hub),通过整合许多应用程序所需的数据,并为这些应用程序提供一致的数据视图,从而能缓解这个问题

2.6. 另一个业务驱动因素是维护管理成本

2.7. 数据集成和互操作(DII)还支持组织遵守数据处理标准和规则的能力

3. 目标和原则

3.1. 实施目标

3.2. 原则

4. 抽取、转换、加载

4.1. 数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程

4.2. 无论是在物理状态下或虚拟状态下,批量的或实时的执行ETL都是在应用程序和组织之间数据流动的必要步骤

4.3. ETL可以作为定期调度事件执行(批处理),也可以在有新数据或数据更新后执行(实时或事件驱动)

4.4. 对于需要超低延迟的数据集成需求来说,它通常不会包括数据集成中间结果的物理分段

4.5. 抽取

4.6. 转换

4.7. 加载

4.8. 抽取、加载、转换(ELT)

4.9. 映射

5. 时延

5.1. 时延(Latency)是指从源系统生成数据到目标系统可用该数据的时间差

5.2. 不同的数据处理方法会导致不同程度的数据延迟

5.3. 批处理

5.4. 变更数据捕获

5.5. 准实时和事件驱动

5.6. 异步

5.7. 实时,同步

5.8. 低延迟或流处理

上一篇 下一篇

猜你喜欢

热点阅读