【原创】对“元数据”的理解
一、引言
数据元与元数据是数据工程领域中非常容易被混淆的两个概念。数据元相对来说更容易理解一些,就是对一个对象类的属性的完整表达。数据元的作用就是组成数据集或数据库,数据的内容也正是记录在一个个数据元里,比如户籍信息中,某人的姓名、性别、身份证号、籍贯等等的描述都体现在数据元中。
那么,元数据又是什么呢?文献[1]的说法比较能够切中要害:
- 元数据本身也是一种数据元,是用一种一致、标准的方式来表达的数据元;
- 元数据的每一个元素都是一个数据元,也就是说,描述元数据的属性时,应符合数据元的标准;
- 元数据和数据元的字典格式是基本一致的;
- 为使数据便于理解和使用,提供数据元的同时,应同时提供相关元数据。
文献[1]所提出的四个观点,很精练地阐明了元数据在形式上的特点:它也是一种数据元。但是,仍然与许多其他论文、书籍、标准一样,并没有说明白元数据存在的意义、作用和用法。下面,我就尝试着用最直白的语言阐明之。
二、元数据的意义与作用
如前所述,元数据也是一种数据元,它来自于数据元,但又比数据元层次高,具有一定的“共性”和“抽象”意味。
举个浅显的例子,一次人口普查,上海新增的人口名单为:
姓名 | 性别 | 籍贯 | 身份证号 | …… |
---|---|---|---|---|
张三 | 男 | 江西南昌 | 360XXX | …… |
李四 | 男 | 上海 | 310XXX | |
王五 | 男 | 湖北武汉 | 420XXX | …… |
…… | …… | …… | …… | …… |
在上海当地的信息系统中存储和维护这张数据表,不存在任何问题,但如果要上报到中央,或者与其他机构共享,这张表中的信息量就明显不够了,以为在“中央”或“其他机构”的视角中,这张表是哪个省市、是何时、由何机构生成的?这类信息都没有。这样,”中央“或”其他机构“将无法理解这张数据表的来龙去脉,自然也就无法”集成“和”共享“到他们的数据库之中。
实际上,我主观认为,上面这张表起初也是有省市、生成时间、生成机构这些信息的。
省市 | 生成时间 | 生成机构 | 姓名 | 性别 | 籍贯 | 身份证号 | …… |
---|---|---|---|---|---|---|---|
上海市 | 20XX.XX | 某单位 | 张三 | 男 | 江西南昌 | 360XXX | …… |
上海市 | 20XX.XX | 某单位 | 李四 | 男 | 上海 | 310XXX | |
上海市 | 20XX.XX | 某单位 | 王五 | 男 | 湖北武汉 | 420XXX | …… |
…… | …… | …… | …… | …… | …… | …… | …… |
但是,对于同一地区、同一机构普查出来的大量数据来说,这几种信息又是重复的、同一的。为了避免这些重复信息带来的存储空间浪费和升级维护难度,干脆将它们抽象出来,平时不体现,在需要维护或分享数据时,才与数据集一同分发。这样,就有了“元数据”。
所以,通过上面的例子,我们可以对元数据的作用和意义做如下总结:
-
元数据是一个数据集合中的通用属性的结合体,其作用是避免数据冗余,方便数据共享,意义是减少维护成本,提高共享效率;
-
元数据的一般作用在一个数据集上。一个数据集的数据量可以很大,但一般只有一个数据元。在提交数据集时,如果带上元数据信息,可使其在网络上的检索、定位和理解更加便利。
三、元数据的用法
元数据的用法,归根结底就是一句话:“配合数据集,描述数据元“。当然,前提是大家要对元数据的属性、结构和表示形成一套共识,也就是所谓“元数据标准”。否则,连格式都不一致,共享也就无从谈起。比较著名的元数据标准有《都柏林核心元数据标准(DC元数据标准)》、ISO 19115《地理信息元数据标准》等,国内也有了GB/T 18391系列标准。
四、元数据标准存在的意义
很简单,如果某个行业有了元数据标准,那么这个行业的数据工程标准体系结构就如:
元数据标准 | 数据元标准 | 模式与编码标准 |
---|---|---|
数据元标准1 | 模式与编码标准1 | |
元数据标准 | 数据元标准2 | 模式与编码标准2 |
数据元标准3 | 模式预编码标准3 |
这样,只要有一个或少数几个元数据标准就够了。反之,如果没有元数据标准,那么每个数据元标准都需要用冗长的篇幅,将本该在单个元数据标准中的内容重复记述在多个数据元标准中。
原创文章,欢迎批评指正。若要转载,须与本人先行沟通。
参考文献:
[1] 王丹,王文生. 元数据与数据元的内涵及其应用. 农业网络信息, 2015, 11.