玩转大数据互联网科技

【原创】对“元数据”的理解

2017-05-09  本文已影响95人  涂山先生_冰侍狐
timg (18).jpg

一、引言

数据元与元数据是数据工程领域中非常容易被混淆的两个概念。数据元相对来说更容易理解一些,就是对一个对象类的属性的完整表达。数据元的作用就是组成数据集或数据库,数据的内容也正是记录在一个个数据元里,比如户籍信息中,某人的姓名、性别、身份证号、籍贯等等的描述都体现在数据元中。

那么,元数据又是什么呢?文献[1]的说法比较能够切中要害:

  1. 元数据本身也是一种数据元,是用一种一致、标准的方式来表达的数据元;
  2. 元数据的每一个元素都是一个数据元,也就是说,描述元数据的属性时,应符合数据元的标准;
  3. 元数据和数据元的字典格式是基本一致的;
  4. 为使数据便于理解和使用,提供数据元的同时,应同时提供相关元数据。

文献[1]所提出的四个观点,很精练地阐明了元数据在形式上的特点:它也是一种数据元。但是,仍然与许多其他论文、书籍、标准一样,并没有说明白元数据存在的意义、作用和用法。下面,我就尝试着用最直白的语言阐明之。

二、元数据的意义与作用

如前所述,元数据也是一种数据元,它来自于数据元,但又比数据元层次高,具有一定的“共性”和“抽象”意味。

举个浅显的例子,一次人口普查,上海新增的人口名单为:

姓名 性别 籍贯 身份证号 ……
张三 江西南昌 360XXX ……
李四 上海 310XXX
王五 湖北武汉 420XXX ……
…… …… …… …… ……

在上海当地的信息系统中存储和维护这张数据表,不存在任何问题,但如果要上报到中央,或者与其他机构共享,这张表中的信息量就明显不够了,以为在“中央”或“其他机构”的视角中,这张表是哪个省市、是何时、由何机构生成的?这类信息都没有。这样,”中央“或”其他机构“将无法理解这张数据表的来龙去脉,自然也就无法”集成“和”共享“到他们的数据库之中。

实际上,我主观认为,上面这张表起初也是有省市、生成时间、生成机构这些信息的。

省市 生成时间 生成机构 姓名 性别 籍贯 身份证号 ……
上海市 20XX.XX 某单位 张三 江西南昌 360XXX ……
上海市 20XX.XX 某单位 李四 上海 310XXX
上海市 20XX.XX 某单位 王五 湖北武汉 420XXX ……
…… …… …… …… …… …… …… ……

但是,对于同一地区、同一机构普查出来的大量数据来说,这几种信息又是重复的、同一的。为了避免这些重复信息带来的存储空间浪费和升级维护难度,干脆将它们抽象出来,平时不体现,在需要维护或分享数据时,才与数据集一同分发。这样,就有了“元数据”。

所以,通过上面的例子,我们可以对元数据的作用和意义做如下总结:

  1. 元数据是一个数据集合中的通用属性的结合体,其作用是避免数据冗余,方便数据共享,意义是减少维护成本,提高共享效率;

  2. 元数据的一般作用在一个数据集上。一个数据集的数据量可以很大,但一般只有一个数据元。在提交数据集时,如果带上元数据信息,可使其在网络上的检索、定位和理解更加便利。

三、元数据的用法

元数据的用法,归根结底就是一句话:“配合数据集,描述数据元“。当然,前提是大家要对元数据的属性、结构和表示形成一套共识,也就是所谓“元数据标准”。否则,连格式都不一致,共享也就无从谈起。比较著名的元数据标准有《都柏林核心元数据标准(DC元数据标准)》、ISO 19115《地理信息元数据标准》等,国内也有了GB/T 18391系列标准。

四、元数据标准存在的意义

很简单,如果某个行业有了元数据标准,那么这个行业的数据工程标准体系结构就如:

元数据标准 数据元标准 模式与编码标准
数据元标准1 模式与编码标准1
元数据标准 数据元标准2 模式与编码标准2
数据元标准3 模式预编码标准3

这样,只要有一个或少数几个元数据标准就够了。反之,如果没有元数据标准,那么每个数据元标准都需要用冗长的篇幅,将本该在单个元数据标准中的内容重复记述在多个数据元标准中。


原创文章,欢迎批评指正。若要转载,须与本人先行沟通。

参考文献:

[1] 王丹,王文生. 元数据与数据元的内涵及其应用. 农业网络信息, 2015, 11.

上一篇下一篇

猜你喜欢

热点阅读