点滴收录

20190130 数仓相关整理

2019-01-30  本文已影响0人  佳兰小筑

文章内容均整理至微信公众号连岳,如有侵权,请联系删除。

你了解你的数据吗
https://mp.weixin.qq.com/s?__biz=MzUyMjI4MzE0MQ==&mid=2247483895&idx=1&sn=88e2cc3f5d523da88a8ea15a4629a3ec&scene=19#wechat_redirect

数据接入,数据的核心维度,数据质量监控

你知道自己的系统数据接入量是多少吗?
你知道数据的分布情况吗?
你知道自己常用的数据有什么隐藏的坑吗?

既然你知道系统的数据接入量,那你知道每天的数据量波动吗?波动量在多大范围内是正常情况?
你知道的数据分布情况是什么样子的?除了性别、年龄和城市的分布,还有什么分布?
在偌大的数据仓库中,哪些数据被使用最多,哪些数据又无人问津,这些你了解吗?
在最常用的那批数据中,有哪些核心的维度?有相同维度的两个表之间的数据口径是否也一样?


核心维度分布主要是指数据中那些比较重要的列的内容分布,比如说用户最基本的年龄、性别和城市信息,这是最常用的数据分布,再引申一点的话会涉及到一些业务内容,比如说各省份的人的订单情况、不同时间段男女活跃信息对比,等等。如果有用户画像表的话还应包括各种画像中的维度分布。
因此,我们来做一个大概的划分的话,那就是三部分内容:1.基础资料;2.业务行为;3.用户画像。这三部分能帮助我们来理解用户是什么样子的?更好的懂业务,能促进更深入地理解数据。




上一篇 下一篇

猜你喜欢

热点阅读