数据治理数据中台元数据

数据中台之元数据

2022-02-26  本文已影响0人  每天进步一点点变成更好的自己

作为大数据的测试人员,对大数据的一些基本知识需要进行深入学习一下,最近在学习极客时间的<数据中台实践课>的一些感受和记录。

元数据

数据中台的构建,需要确保全局指标的业务口径一致,要把原先口径不一致的\重复的指标进行梳理,整合成一个统一的指标字典。而这项工作的前提,是要搞清楚这些指标的业务口径\数据来源和计算逻辑。
元数据:主要分3类(数据字典\数据血缘\数据特征)。

业界元数据中心产品
开源的有Netflix的Metacat、Apache Atlas,前者擅长管理数据字典,后者擅长于管理数据血缘。
商业化的产品有:Cloudera Navigator.

血缘采集,一般可以通过3种方式
通过静态解析SQL,获得输入表和输出表
通过实时抓取正在执行的SQL,解析执行计划,获取输入表和输出表
通过任务日志解析的方式,获取执行后的SQL输入表和输出表

网易元数据中心设计
必须实现的5个关键目标:
其一,多业务线、多租户支持。
其二,多数据源支持(比如mysql、Hive、Kudu等,半结构化的KV管理【kafka、redis、hbase】),同时还要支持相同数据源的多个集群。
其三,数据血缘。元数据中心需要支持数据血缘的实时采集和高性能的查询,同时还要支持字段级别的血缘。
其四,与大数据平台集成。元数据中心需要与ranger集成,实现基于tag的权限管理方式。
其五,数据标签。必须支持对表和表中的字段打标签,通过丰富的不同类型的标签,可以完善数据中台数据的特征,比如指标可以作为一种类型的标签打在表上,主题域、分层信息都可以作为不同类型的标签关联到表。

网易元数据中心系统架构设计图:
数据血缘:采集端、消息中间件、消费端以及血缘清理模块组成,基于Hive Hook,Spark Listener,Flink Hook,可以获取任务执行时输入表和输出表,推送给统一的消息中间件(kafka),然后消费端负责将血缘关系沉淀到图数据库中。

image.png image.png image.png image.png
上一篇下一篇

猜你喜欢

热点阅读