大数据devops

数仓--Theory--数仓元数据及管理

2019-04-22  本文已影响0人  李小李的路

需要进行对比学习,弄清楚是hive元数据还是数仓元数据,两者有很大的区别,存储位置也是不一样的

Hive元数据

数仓元数据

好好的体会一下数仓元数据的内容,注意和hive元数据进行对比学习
元数据概念

元数据定义

技术元数据

存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据

业务元数据

从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。

总结

元数据作用

具体表现如下:

1.元数据是进行数据集成所必需的

2.元数据定义的语义层可以帮助用户理解数据仓库中的数据

3.元数据是保证数据质量的关键

4.元数据可以支持需求变化

元数据管理现状

与元数据相关的数据仓库工具大致可分为四类:

  1. 数据抽取工具;
    把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、Pentaho的开源ETL产品Kettle、ETI的Extract等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。
  2. 前端展现工具:
    包括OLAP分析、报表和商业智能工具等,如Cognos的PowerPlay、Business Objects的BO,以及国内厂商帆软的FineBI/FineReport等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。
  3. 建模工具:
    为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。
  4. 元数据存储工具:
    元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的Repository,Ardent的MetaStage和Sybase的WCC等。

5.元数据管理工具:

四、元数据管理标准

没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。

从元数据的发展历史不难看出,元数据管理主要有两种方法:

五、元数据管理功能

1. 数据地图

数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。

2. 元数据分析

血缘分析

影响分析

实体关联分析

实体差异分析

指标一致性分析

3. 辅助应用优化

元数据对数据系统的数据、数据加工过程以及数据间的关系提供了准确的描述,利用血缘分析、影响分析和实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,结合应用生命周期管理过程,辅助进行数据系统的应用优化.

4. 辅助安全管理

5. 基于元数据的开发管理

数据系统项目开发的主要环节包括:需求分析、设计、开发、测试和上线。开发管理应用可以提供相应的功能,对以上各环节的工作流程、相关资源、规则约束、输入输出信息等提供管理和支持。

推荐学习文章:https://tech.youzan.com/youzan-metadata/ 有赞数据仓库元数据系统实践

参考博客 : 聊一聊数据仓库中的元数据管理系统
元数据及数据仓库相关概念

上一篇下一篇

猜你喜欢

热点阅读