数据集成
2020-04-15 本文已影响0人
阿猫阿狗Hakuna
数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。
数据集成架构
数据集成有两种架构:ELT和ETL。
分别是数据的抽取、转换和加载三个过程。
根据转换发生的顺序和位置,可以分为ETL和ELT两种架构。
ETL 的过程为提取 (Extract)——转换 (Transform)——加载 (Load),在数据源抽取后首先进行转换,然后将转换的结果写入目的地。
ELT 的过程则是提取 (Extract)——加载 (Load)——变换 (Transform),在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如 Spark 来完成转换的步骤。