数仓的发展与特性

2018-12-18  本文已影响0人  升空的焰火

一.何为数仓?

也就是集成化数据环境,控制数据的流入与流出,本身并不产生和消费数据。

二.数仓的作用?

1、管理数据,支持服务调用,为企业提供决策支持。

2、基本架构图

三.数仓的数据流程

1.数据源

也就是我们的业务产生的数据。一般来源于日志,IOT(前端设备),或者其他的系统。

2.数据集成

其实也就是数据收集的过程。大部分web业务的数据收集以API接口和消息队列为主,这个过程应该是业务开发控制。

3.数据存储

1.不涉及大数据,一般用关系型数据库mysql,oracle,存储。

2.大数据环境下。Hbase大数据行数据库,Storm流式处理框架,Flink,Spark大数据系统框架.。

4.数据清洗

1..informatica(规则管理平台,华为目前在使用),一种第三方的数据规则管理工具,可以根据配置的规则对数据进行筛选。

2.利用算法进行筛选。

5.数据建模

1.数仓模型建模,也就是我们常常聊得业务模型建模

2 AI算法建模,基于统计学,概率论等,设计需要的数据模型,并进行自学习管理。(1,监督学  2 ,半监督学  3 ,无监督学)

6.数据服务

使用数据,发挥数据价值。

四.数仓建立的两种模式

1.kimball模式,自下而上,定制甲方业务,先有业务模型,再有数仓模型。

2.Inmon模式,自下而上,根据模块功能,建立数仓模型,再决定业务模型。

一般的互联网公司还是以服务甲方为主,而大企业公司就会选择Inmon模型,研发自己的产品。

五.数据中台。

1.一个对数据直接处理的平台。所有对数仓的直接操作,全部由数据中台处理。

上一篇 下一篇

猜你喜欢

热点阅读