程序员python数据分析人工智能机器学习

数据仓库快速入门教程12-数据集市

2019-06-30  本文已影响7人  python测试开发

什么是数据集市?

数据集市专注于组织的单个功能区域,并包含存储在数据仓库中的数据子集。

数据集市是数据仓库的精简版本,旨在供组织中的特定部门,单位或用户组使用。例如,营销,销售,人力资源或财务。它通常由组织中的单个部门控制。

与数据仓库相比,数据集市通常仅从少数几个来源获取数据。与Datawarehouse相比,数据集市规模小,灵活性更高。

为什么需要数据集市?

数据集市的类型

数据集市有三种主要类型:

依赖数据集市

依赖数据集市允许从单个数据仓库中获取组织的数据。它提供了集中化的好处。如果需要开发一个或多个物理数据集市,则需要将它们配置为依赖数据集市。

依赖数据集市可以以两种不同的方式构建。用户可以根据需要访问数据集市和数据仓库,或者访问仅限于数据集市。第二种方法不是最优的,因为它有时被称为数据垃圾场。在数据垃圾场中,所有数据都以公共源开头,但它们被废弃,并且大多数都是废弃的。

image.png

独立数据集市

在不使用中央数据仓库的情况下创建独立数据集市。这种数据集市是组织内小型团体的理想选择。

独立数据集市既没有与企业数据仓库的关系,也没有与任何其他数据集市的关系。在独立数据集市中,数据是单独输入的,其分析也是自主执行的。

独立数据集市的实施与构建数据仓库的动机是对立的。首先,您需要一致的,集中的企业数据存储,可以由需要不同信息的不同兴趣的多个用户进行分析。

image.png

混合数据集市:

混合数据集市结合了来自数据仓库的来源。当您需要临时集成时,这可能会有所帮助,例如在将新组或产品添加到组织之后。

它最适合任何组织的多个数据库环境和快速实施周转。它还需要最少的数据清理工作。 Hybrid Data mart还支持大型存储结构,最适合于以小型数据为中心的应用程序。

image.png

实施Datamart的步骤

实施数据集市是一个有益但复杂的过程。以下是实施数据集市的详细步骤:

image.png

设计

设计是数据集市实施的第一阶段。它涵盖了启动数据集市请求与收集有关需求信息之间的所有任务。最后,我们创建了数据集市的逻辑和物理设计。

设计步骤涉及以下任务:

可以根据以下标准对数据进行分区:

可以在应用程序或DBMS级别对数据进行分区。建议在应用程序级别进行分区,因为它允许每年不同的数据模型随着业务环境的变化而变化。

建设

这是第二阶段的实施。它涉及创建物理数据库和逻辑结构。

此步骤涉及以下任务:

实现早期阶段设计的物理数据库。例如,创了表,索引,视图等数据库模式对象。

需要一个关系数据库管理系统来构建数据集市。 RDBMS具有数据集市成功所需的若干功能。

填充:

填充步骤涉及以下任务:

可以使用ETL(提取变换加载)工具完成这些填充任务。此工具允许您查看数据源,执行源到目标映射,提取数据,转换,清理数据并将其加载回数据集市。

在此过程中,该工具还会创建一些与数据来源相关的元数据,例如数据的来源,最近的数据,对数据进行的更改类型以及完成的摘要级别。

访问

涉及使用数据:查询数据,创建报告,图表和发布数据。最终用户向数据库提交查询并显示查询结果

访问步骤需要执行以下任务:

您可以使用命令行或GUI访问数据集市。 GUI是首选,因为它可以轻松生成图形,并且与命令行相比,用户友好。

管理

涵盖管理任务,例如:

您可以使用GUI或命令行进行数据集市管理。

实施数据集市的最佳实践

参考资料

数据集市的优点和缺点

优点

缺点

小结

上一篇 下一篇

猜你喜欢

热点阅读