7.阿里大数据——大数据建模

2021-07-22  本文已影响0人  路小漫

一、为什么需要数据建模

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。
适合业务和基础数据存储环境的模型,大数据能获得以下好处:

大数据系统需要数据模型方法来帮助更好的组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。

二、关系数据库系统和数据仓库

不管是Hadoop、Spark还是阿里巴巴集团的MaxCompute系统,仍然在大规模使用SQL进行数据的加工和处理,仍然在用Table存储数据,仍然在使用关系理论描述数据之间的关系,只是在大数据领域,基于其数据存取的特点在关系数据模型的范式上有了不同的选择而已。

三、从OLTP和OLAP系统的区别看模型方法论的选择

四、典型的数据仓库建模方法论

1.ER模型

从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务,在范式理论上符合3NF。数据仓库中的3NF与OLTP中不同过,有以下特点:

ER模型建设数据仓库的出发点是整合数据,为数据分析决策服务。建模步骤分为三个阶段:

2.维度模型

维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型代表事星形模型,以及在一些特殊场景下使用的雪花模型。其设计步骤如下:

3. Data Vault 模型

它是ER模型的衍生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分析决策。它强调建立一个可审计的基础数据层,也就是强调数据的历史性、可追溯性和原子性,而不要求对数据进行过度的一致性处理和整合。该模型由一下几部分组成:

Hub可以想象成人的骨架,那么Link就是连接骨架的韧带,而Satellite就是骨架上面的血肉。

4.Anchor模型

Anchor对Data Vault模型做了进一步规范化处理,设计的初衷是一个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,因此将模型规范到6NF,基本变成了k-v结构化模型。组成如下:

5.阿里巴巴数据模型实践综述

经历了多个阶段:

上一篇 下一篇

猜你喜欢

热点阅读