数据集成

2020-04-15  本文已影响0人  阿猫阿狗Hakuna

数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。

数据集成架构

数据集成有两种架构:ELT和ETL。
分别是数据的抽取、转换和加载三个过程。
根据转换发生的顺序和位置,可以分为ETL和ELT两种架构。

ETL 的过程为提取 (Extract)——转换 (Transform)——加载 (Load),在数据源抽取后首先进行转换,然后将转换的结果写入目的地。
ELT 的过程则是提取 (Extract)——加载 (Load)——变换 (Transform),在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如 Spark 来完成转换的步骤。

上一篇下一篇

猜你喜欢

热点阅读