大数据

ETL入门

2018-11-26  本文已影响4人  阿猫阿狗Hakuna

1.数据仓库与数据集市

       数据仓库是单一的,大量(历史性)数据的存储仓库,可用来支持企业决策。因此,它所涉及的数据涵盖了各种主题和各种业务领域,例如金融、物流、市场营销和客户支持。通常,一个数据仓库是不能被终端用户工具直接访问的。
       相反,一个数据集市可以由终端用户直接访问,并且是以特定的数据分析为目的的,例如零售或客户来电。

2.ETL、ELT和EII

       下图为一个典型的数据仓库架构:


image.png

3.增量数据捕获CDC

       辨别出哪些数据发生变化,并抽取那些自上次抽取后发生变化的数据的过程称为增量数据捕获,也叫CDC。
       在CDC处理方式上有两种基本分类,侵入式和非侵入式。侵入式是指CDC操作会对源系统有一定性能影响。不论以何种方式,只要对源系统执行了SQL语句,就是侵入式的。大部分的CDC方法都是侵入式的,只有一种不是。

上一篇下一篇

猜你喜欢

热点阅读