数仓模型的常见问题
2021-12-26 本文已影响0人
傻疯子
数仓建设的模型主要可以归为三类问题,完善性、可复用性、规范性。
完善性主要是指数仓建设是否完善,是不是有跨层引用的情况。比如dws或者app层直接引用ods层数据,而不是dwd层数据;或者说dws和app是否建设完善,能否通过dws和app直接把结果查询出来。
可以通过统计ods层中被跨层引用的比率,以及汇总表占所有查询的比率,可以分别感知这两个问题。
可复用性是指模型被下游引用的情况,最差情况是只被使用了一次,而引用次数越多复用性越好,说明价值可能越高。
可以通过统计每张表被引用的情况,然后通过统计某一个分层的平均引用情况或者分布来得知总体复用情况。
规范性是指表是否进行了分层和主体域的划分,然后这个表明是否说明了表的划分和业务过程以及表的数据存储情况,然后表的字段在不同的表中是否做了统一。
通过统计表的归属情况以及表名的规范程度来得知初步情况。