ETL入门
2018-11-26 本文已影响4人
阿猫阿狗Hakuna
1.数据仓库与数据集市
数据仓库是单一的,大量(历史性)数据的存储仓库,可用来支持企业决策。因此,它所涉及的数据涵盖了各种主题和各种业务领域,例如金融、物流、市场营销和客户支持。通常,一个数据仓库是不能被终端用户工具直接访问的。
相反,一个数据集市可以由终端用户直接访问,并且是以特定的数据分析为目的的,例如零售或客户来电。
2.ETL、ELT和EII
下图为一个典型的数据仓库架构:
image.png
- ETL是指从一个或多个数据源抽取数据,经过一个或多个转换步骤后,物理地存储到目标环境中,目标环境通常是数据仓库。
- ELT同ETL在数据整合方法上略微不同。在ELT情况下,数据首先从源数据进行抽取、加载到目标数据库中,再转换为所需的格式。所有大数据量处理全部放在目标数据库中进行。
-
EII:虚拟数据整合,ETL和ELT都是以武力方式将数据从OLTP移动或复制到数据仓库。除了物理数据集成方式,还有虚拟数据集成方式也可以满足用户访问数据的要求。这种虚拟数据集成方式就是企业信息集成,也就是EII。这种方法的主要优点是数据永远都是最新的,以及不需要额外的存储层,没有冗余数据。以下为物理与虚拟方案的比较:
image.png
3.增量数据捕获CDC
辨别出哪些数据发生变化,并抽取那些自上次抽取后发生变化的数据的过程称为增量数据捕获,也叫CDC。
在CDC处理方式上有两种基本分类,侵入式和非侵入式。侵入式是指CDC操作会对源系统有一定性能影响。不论以何种方式,只要对源系统执行了SQL语句,就是侵入式的。大部分的CDC方法都是侵入式的,只有一种不是。