数据仓库数据集成算法

2017-09-07  本文已影响0人  不圆的石头

1.数据仓库数据集成

数据仓库将源系统数据抽取到ODS或者ODS提供数据给数据仓库后,需要将不同来源的数据根据业务需求集成在同一模型中。总体来说,集成算法与ODS算法基本相同,区别在于集成时当日数据来源并不是唯一的。从模型上来说,大体分为历史表模型,当前表模型,流水表模型,特殊数据模型将根据业务需求特殊加载。

2.历史表数据加载算法

历史表指当源系统数据被删除(物理删除或逻辑删除)或者失效后,数据仓库不会将数据物理删除,只将数据的结束日期闭链,从而保证将源系统数据变化的过程保留下来。基本加载算法如下:

3.流水表数据加载算法

通常流水表只保留在ODS层,但某些流水数据可能来源于多个源系统,为了后续数据使用方便,也将多个来源的流水表集成到一起。

4.当前表数据加载算法

当前表是指只保留最新的数据,源系统失效或者删除(物理删除或逻辑删除)的数据,在数据仓库集成的时候,不再保留,直接物理删除。当前表只保留有效的数据。算法与历史表基本相同(只是wt_u是直接删除,而不是关链)

上一篇 下一篇

猜你喜欢

热点阅读