数据仓库数据科学家大数据产品经理的自用干活

企业大数据平台仓库架构建设思路(李金波)

2016-09-10  本文已影响180人  姜小明同学

1 总体思路

新环境下的数据应用特征

关键词

安全、透明

大数据平台特征

仓库架构设计原则

2 模型设计

维度建模 OR 实体关系建模

星型模型 AND 雪花模型

企业中二者并存,转化为星型模型可以减少计算和存储。

数据分层

上下分三层:

流式数据以保证时效性。

基础数据层

数据采集、数据清洗、数据归类、数据结构化、数据规范化。

中间层

集市层

集市之间垂直构建。
集市层深度挖掘数据价值,集市层能够快速试错。

流式数据集

3 数据架构

数据采集

结构化数据采集

全量采集
增量采集(CDC)
实时采集

日志结构化

UDF、SerDes、

非结构化数据特征提取

视频图片语音文本标签(一般在数仓体系之外)。

数据服务

数据服务化

统计服务(sum销售总值)、分析服务(分析流式几率)、标签服务(有车、有孩标签)。

架构设计中一些实用的点

4 数据治理

内容建设
管理(元数据、保障)
保障
数据质量(事前、事中、时候)
数据生命周期管理

上一篇下一篇

猜你喜欢

热点阅读