大数据,机器学习,人工智能大数据 爬虫Python AI Sql玩转大数据

浅谈数据治理

2019-12-12  本文已影响0人  愤怒的谜团

一、数据治理是什么?

1.1、说在前头的话

其实在网上也看了很多数据治理相关的文章,说的也很条理,可能那些作者站的高度很高,他们视角也会很广,感觉读他们的文章会感觉大而广泛,对于开阔自己的视野非常有帮助,笔者想根据自己的工作经验,对数据治理相关的事项,结合自己的经验,以实际例子来描述一下数据如何治理。当然,本文也会涉及一部分技术相关的描述,所以能够对数据基础平台,数据仓库,数据应用等有所了解,会更加好理解笔者想表达的意思。

1.2、数据治理的定义

其实数据治理是一个很广的事情,抽象来讲可以包含数据标准管理,数据质量管理,元数据管理。数据治理的目的是为了让数据变得更加可靠,易用,支持高速迭代。这三点,是目前笔者感触最深的,后续也会一一详细说明。可以试想一下,"不健康"的数据往往比没有数据给企业带来的伤害更大,因为每个企业成立数据部门,希望数据能够带来价值变现,用数据进行赋能,如果数据本身就是不准确的,那么由数据产出的加工品,自然也就变得不那么可信了。

二、数据标准

1.1、说在前头的话

为什么要把数据标准放在最前头,其实整个数据治理过程,是各个环节相互辅助迭代的一个过程。把数据标准放在最前头,是因为笔者觉得数据标准如房屋根基,根基不稳,会导致后续一系列问题。大部分企业,都是业务起来了,才会开始逐步重视数据,这样会面临一个问题,因为业务发展非常快,导致数据方面的建设都是跟着业务跑,缺乏体系化,标准化的建设,举个小例子,在缺乏体系化建设的情况下,想要计算一个指标,直接从明细层去取数,关于数据建模这一块,可以参考一下笔者的一文了解数据库和数据仓库,这样慢慢的就会导致,指标计算越来越复杂,越来越难维护,计算口径很难统一,数据质量也堪忧。那么如何标准呢,笔者分为以下几点:

1.2、数据接入标准

目前企业主要的数据分布在流量日志,关系型数据/非关系型数据库,第三方的一些数据,例如爬虫。

1.3、数据开发标准

开发标准主要指写ETL的一些规范,比如脚本开头要说明这个脚本所属数据域,负责人,开发时间,以及后面在什么时间修改了什么逻辑,都应该在脚本中体现,这么做可以好追溯一个脚本的修改历史,从而好追溯问题,另外是一些sql的格式,表,字段的命名,一些关键逻辑的注释,脚本当中临时表的使用规范等。当然最重要的是hive参数配置,合理化应用资源,这个要画黑板了。

1.4、数据模型规范

数据仓库建设必须要遵循一套规范,就拿现在较为常用的kimball理论,或者说是阿里的onedata体系,在上面说的数据接入,数据域划分,维度表设计,事实表设计等都有理论可以支持。简单说下分层,离线数据仓库,常见的就有stage(缓冲层),ods(明细层),dwb(原子指标层),dws(衍生指标层),app|rpt等报表接口应用层。

1.5、数据服务规范

一套好的数据仓库建设完以后,除了维护其迭代更新,最重要的当然是使其发挥作用,每个公司的应用情况都不一样,例如电子大屏,风控,报表,线上接口等,只要能用上公共层数据的情况,都属于对数据的应用。那么面对诸多的应用,我们在提供数据服务时,就应该要设立权限,监控,告警等规范,当然这也属于数据质量的内容,从某种意义上来讲,遵循标准体现的意义就是提升质量。

三、数据质量

数据质量的范畴也很广,大概分为以下几点:

以上所有都是可以通过监控系统进行配置监控的,因为数据质量的问题大多都是人为造成,也是无法避免的,能做的都是配置监控,提醒人不规范的操作,从而进行修改。

四、元数据管理

元数据是描述数据的数据,大数据集成了多个业务系统的数据,打破了数据孤岛,那么怎么有效的将这些数据进行管理是一个很大的问题,每个公司都应该有一个元数据系统来管理数据。一般都会包含以下几个功能:

有了元数据系统可以更好的帮助我们使用数据。

上一篇下一篇

猜你喜欢

热点阅读