python数据分析人工智能机器学习程序员Hadoop

数据仓库快速入门教程9-维度模型

2019-06-29  本文已影响7人  python测试开发

什么是维度模型?

维度模型是针对数据仓库工具优化的数据结构技术。维度建模的概念由Ralph Kimball开发,由“事实”和“维度”表组成。

维度模型旨在读取,汇总,分析数据仓库中的数值信息,如值,余额,计数,权重等。相反,关系模型被优化用于在实时在线交易系统中添加,更新和删除数据。

这些维度和关系模型具有独特的数据存储方式,具有特定的优势。

例如,在关系模式中,归一化和ER模型减少了数据冗余。相反,维度模型以这样的方式排列数据,使得更容易检索信息并生成报告。

因此,维度模型用于数据仓库系统,并不适合关系系统。

维度数据模型的要素

事实是您的业务流程中的度量/指标或事实。对于销售业务流程,度量将是季度销售数量

在“位置”维度中,属性可以是州、国家、邮编等。属性用于搜索,过滤或分类事实。维度表包含属性。

事实表包含:测量/事实;维度表的外键

维度建模的步骤

创建维度建模的准确性决定了数据仓库实施的成功。以下是创建Dimension Model的步骤

确定业务流程;识别粒度(细节水平);识别尺寸;识别事实;打造明星

该模型应描述您的业务流程的 Why, How much, When/Where/Who 和业务流程

确定数据库应涵盖的实际业务流程。根据组织的数据分析需求,这可以是市场营销,销售,人力资源等。业务流程的选择还取决于该流程可用的数据质量。这是数据建模过程中最重要的一步,这里的失败会产生级联和无法修复的缺陷。

要描述业务流程,您可以使用纯文本或使用基本业务流程建模表示法(BPMN basic Business Process Modelling Notation )或统一建模语言(UML Unified Modelling Language )。

在此阶段,您可以回答类似的问题

我们是否需要存储所有可用产品或仅存储几种类型的产品?此决定基于为Datawarehouse选择的业务流程。

我们是按月,按周,按日或按小时存储产品销售信息吗?该决定取决于高管要求的报告的性质。
以上两个选择如何影响数据库大小?

粒度的例子:

跨国公司的首席执行官希望每天在不同地点找到特定产品的销售额。

因此,粒度是“按地点分类的产品销售信息”。

尺寸示例:

跨国公司的首席执行官希望每天在不同地点找到特定产品的销售额。

尺寸:产品,位置和时间

属性:对于产品:产品密钥(外键),名称,类型,规格

层次结构:用于位置:国家/地区,州,城市,街道地址,名称

此步骤与系统的业务用户共同关联,因为这是他们可以访问存储在数据仓库中的数据的位置。大多数事实表行都是数值,如价格或每单位成本等。

事实的例子:

跨国公司的首席执行官希望每天在不同地点找到特定产品的销售额。

这里的事实是按产品按时间划分的销售总额。

在此步骤中,您将实现维度模型。模式只是数据库结构(表的排列)。有两种流行的模式

星图

星型模式架构易于设计。它被称为星型模式,因为图类似于一颗恒星,其中点从中心辐射。恒星的中心由事实表组成,恒星的点是维度表。

星型模式中的事实表是第三范式,而维度表是去规范化的。

雪花图式
雪花模式是星型模式的扩展。在雪花模式中,每个维度都已标准化并连接到更多维度表。

维度建模规则

参考资料

尺寸建模的好处

摘要:

上一篇下一篇

猜你喜欢

热点阅读