数据科学家

你了解你的数据吗(结丹篇)

2018-01-21  本文已影响69人  2453cf172ab4

0x00 前言

结丹篇是《你了解你的数据吗》第四篇,本篇主要聊的内容主要和数据质量监控有关,之前在《数据质量监控》专门分享过相关内容,那篇文章主要从一个宏观的整体来看待质量监控,内容包括架构、设计和实现多个方面,但是对于数据质量监控本身的内容并没有一个比较体系化的梳理,本篇就来做这件事。

0x01 数据质量监控

我们将要分享的数据质量监控,不是单指数据异常,而是对数据各个角度的描述。

同比和环比

为了后面更好描述我们的想法,这里需要先引入两个概念:

在我们实际的数据质量监控中用到的同比和环比会是这样子的:

监控内容

在数据质量监控中,我们将要监控的内容分为三个层次:

  1. 集群整体状况:这在练气篇中也有所提及,比如集群总容量、接入业务量等。
  2. 业务层面:对单个业务进行监控,具体来讲可能是对一张表来监控,比如说会监控它的数据量趋势、某日是否掉0、数据落地延迟、数据同比和环比等。
  3. 维度层面:这里想表达的内容是对核心业务的核心维度做监控,比如说用户的网页点击行为表,我们会对表中的ip字段进行监控,每天有多少为空;再或者对用户资料表进行监控,监控是否会有重复数据。

做一个大致梳理的话会是下面这张图:

[图片上传失败...(image-81a5d-1516514430422)]

0xFF 总结

数据质量监控的内容当然不会只有这么少,比如说像hdfs、es、mysql这些不同的存储引擎会有不同的特性,特定业务场景也会对数据质量有不同的要求,这些我们都不在做展开,在这里只是做一个抛砖引玉的介绍,期待大家一起来完善。

最后再聊一下为什么在《你了解你的数据吗》系列中混入了数据质量监控的内容。其实笔者理解,所谓数据质量监控,宽泛地讲应该是数据监控,数据监控的目的在于让人或者系统来更好地理解数据和管理数据,我们以这样一种体系化地方式来组织和呈现数据的内容其实是一种知识体系的汇总,其目的都是让人更好地去了解你的数据。


作者:木东居士 |简书 | CSDN | GITHUB

个人主页:http://www.mdjs.info

文章可以转载, 但必须以超链接形式标明文章原始出处和作者信息

上一篇下一篇

猜你喜欢

热点阅读