数据中台测试实践分享

2021-12-19  本文已影响0人  李春辉

背景介绍

某知名车企(FT)数字化转型的战略目标是构筑百万辆的数字化智网基盘,促进公司业绩增长。

打造三端合一:统一平台,统一数据,统一运营。

FT数据中台的交付内容有很多,此文主要讨论:数据仓库构建、标签与指标开发。
某知名车企数据中台的数据分层(如下图)共分为:

数据分层

测试实践

对于FT这类的数据中台,接入业务系统较多、数据量大、数据多样,从ODS源数据层到ADS的数据服务层,整个数据处理通道长、计算逻辑复杂。6个月接入5个业务系统数据、交付上百个指标和标签,如何保证这么多的指标和标签按时高质量交付,这对整个团队提出了非常高的要求。

高质量的团队旨在开发全生命周期中,践行【提前预防、及时纠错】。

项目上构建测试实践活动时,依据整个开发实践全生命周期,从最初的故事场景编写,到故事验收上线,全流程参与。早测试早反馈,早发现早纠错。
具体项目质量相关实践活动见如下图所示,旨在保证高质量产出。

项目质量实践活动

以上测试实践活动是大家熟悉的敏捷QA实践,讲过很多次了,具体细节不再过多赘述(详见:《机器学习平台测试篇》的QA实践章节)。
可能细心的你已发现,有些测试实践被醒目的粉色字体高亮。以上粉色字体就是专为此类项目(数据中台、数据仓库等)制定的特别的测试实践活动。

数据探索

为什么要进行数据探索?
真实数据中,存在各种意想不到的用例或异常数据,经过数据探索,更加了解数据,完善大家对数据的认识,避免由于不了解数据遗漏场景或从而造成的Bug。
对结果表进行数据探索,是为了盘查一遍最终交付数据是否有异常或不符合预期认认知的结果。
数据探索做什么?

逻辑图

各类指标与标签的业务口径与技术口径较为复杂,一个指标计算,可能关联多张表,涉及到的关键字段计算也较多;为了更直观高效的对齐BA + DE + QA理解,用唯一的逻辑图来展示,呈现计算涉及到的关键表、关键字段、逻辑关系和预期结果,以快速达成一致理解
逻辑图不仅能以更直观的方式辅助团队快速达成一致理解,同时,也可以帮助工程师快速完成开发,逻辑图转换成SQL代码更高效。


逻辑.png

对数

做过指标开发的都知道,开发指标一定要提前对数 (与业务方核对指标结果数据)。

当依据BA和PO确定的指标口径完成开发后,计算出来的指标结果很可能不符真实预期,为什么?
(1)可能由于对业务口径理解翻译后的技术口径不准确,导致指标结果符合真实预期。
(2)PO或业务人员可能遗漏某类场景,导致指标结果不符合真实预期。
(3)由于某类特殊问题或Bug,导致指标结果不符合真实预期。
介于以上可能存在的风险,业务方相关指标结果数据时,团队会提前进行对数,越早越好,提前发现大的差异,可尽早调整或修正。
有的时候,结果数据对不上有各种原因,在查找原因的过程中,极其耗时耗力。
那么,数据遇到对不上的情况如何处理、何时停止?

Data Publish

数据平台或数仓项目中,生产数据体量及其大,而且生产环境上的全量数据可能存在我们预想不到的惊喜或惊吓,所以,在上线之后,一定要及时进行数据检查验证。

Review测试(分层验证)

数据类项目的自动化测试一定要注意,分层验证。


提效手段

以上的测试实践活动,帮助团队把控质量,即"保质"。其实,测试增加,必然拉低整体速率。那么,如何使的团队不降质量标准的前提下,高效开发与测试?即"保质"的同时还要"保量"?

项目尝试的各项实践活动、以及提炼的各种工具非常多,感兴趣的线下联系项目上的小伙伴了解细节,由于篇幅原因,此文不易展开太多。

上一篇 下一篇

猜你喜欢

热点阅读