测试员的那点事我是程序员阿里云

极测未来|淘宝"千人千面"内容下的智能评测技

2019-08-08  本文已影响43人  阿里云云栖号

背景挑战

全面个性化、内容化的淘宝,构造了基于内容的丰富的导购场景,包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子….。个性化,给消费者带来更精准的货品分发。内容化为消费者带来更多惊喜和好的体验,“好的商品,应该以更好的形式展现给消费者”。

不同于传统测试业务,导购业务非确定性的输入输出,给质量工作带来的两大挑战,接下来会从这两个方面介绍:

个性化评测

1.多维评估体系

推荐系统模型研发过程包含离线特征处理--模型网络设计--离线训练--离线预估--在线部署-- ab 实验--模型优化。

通常的评估手段包含两类:

以上两类评估手段在用户体验方面存在不足,会产生中长期用户体验诟病,比如买了还推,全域趋同等。基于此,我们从五个维度定出了对于导购推荐全局评估指标体系:

2.统计学习评估流程

确定了评估标准,评估流程包含以下几大步骤,通过模型测试集输出推荐结果,利用统计学习方法,进行指标自动计算,各指标相关性分析,进行整体业务评估度量。

为什么采用统计学习方法:

例:下图为某导购场景评测指标相关性矩阵,横纵分别为各评测指标,例如在某一个阶段,A指标和X指标正线性强相关,却和Y指标负线性强相关。需要对评测指标进行综合统计分析,才能对导购系统做出合理性的评估。

3.当前结果

基于5个维度,建立多评测指标计算服务,产出指标合理性置信区间基线,运用于日常导购和大促会场等个性化评测。在淘宝大促个性化会场,及时发现打散不足、推荐不足、重复推荐、推荐趋同、视觉同图等5类,250+个性化会场问题。提前优化,第一次评测整体通过率90%,通过多轮轮评测验证,会场上线前整体通过率提升到99%。

素材质量管控

1.淘宝素材质量标准

电商平台素材包含商家商品发布、招商报名、导购选品、达人创作等来源,文本、图像、商品、内容类等类型。素材质量对于用户体验、增长转化、平台质量都起到重要作用。而在这其中,图像(图片、视频)作为体验表达的重要媒介,是我们重点管控对象。

电商类业务在素材质量标准上,有以下三个特点(以某会场商品白底图部分基础规范为例):

(1)素材信息表达要求准确:避免图片与实物不符,误导用户,包含主体完整,单主体,无模特等要求。

(2)高质量图片转化效率更高:feeds流下用户视觉输入的信息量大,精美,布局合理的图片更能脱颖而出,有更好的转化,平台也能提供更好的用户体验,包含牛皮藓、纯白底、无阴影和抠图等。

(3)不同场景颗粒度差异:比如商品主图的牛皮藓,在公域会场和性价比营销场景,标准颗粒度不一样(轻微可接受、轻微不可接受)。

2.素材质量管控方案

所以素材质量管控方案,需要考虑不同场景检测能力能够快速生成,甚至是能够让业务运营同学参与进来。基于此,淘宝内容导购质量团队与淘宝基础算法团队合作,基于多任务共享特征网络模型,构建图像质量检测服务方案--水滴。通过快速图像检测能力生成,解决不同场景劣质素材质量运营的问题,提升素材质量和用户体验。

整体方案:

将模型训练研发过程样本获取,特征处理,构建训练模型网络,参数调优等工作通过共享模型训练和统一平台方式消减。快速、复用、灵活泛化的多模型产生。例:牛皮癣检测模型1,牛皮癣检测模型2,牛皮癣检测模型n…,并通过持续样本调整,构建运营业务标准和建模桥梁。

共享模型策略特点:

为了提高模型最终精度,深度网络对于训练数据精度要求很高,然而很多图像质量任务都存在边界定义模糊、难标注等问题,导致训练数据往往存在噪声标签,为了解决图像质量数据难标注、噪声问题,我们提出一种噪声标签识别方法:通过采用循环学习策略方法,使得模型反复在 overfifitting 和 underfifitting 之间相互转换,网络在这种学习过程中干净标签样本和噪声标签样本会出现明显的区分性特征,利用这种方法可以帮助我们很快找到那些训练数据集中的噪声标签样本,提高训练数据质量,最终保证模型精度。

工程架构和运转机制:

3.当前结果

建立牛皮癣、多主体、模特衣架、低俗情趣、水印、二维码等 40+ 劣质素材检测模型,提供离在线检测服务,周均 2 亿+服务运行,对导购业务各类商品、内容劣质素材从供给端进行质量检测,卡口治理,累计检测出劣质素材 7500 万+,并下线过滤。

扩展—无线CVT测试

除了用于素材质量整体管控,我们也在思考是否能将视觉技术引入测试领域,构造检测断言,用计算机代替测试人员的眼睛,这样高效,精准(像素级)发现问题,自动回归。基于此,构造了CVT--基于计算机视觉技术的自动化测试方案并落地实施。

基于feeds流的无线测试通常涉及到这些方面工作

通过目标检测、轮廓提取、ocr、以及快速机器学习多任务模型生成能力,全面运用到以上上线前内部的测试工作中。

例:CVT适配自动化测试

例:CVT视觉异常检测(空窗、白屏、错误框、模糊、截断等...)

3.当前结果

覆盖淘系大促会场、导购、二三方小程序、拍卖、阿里众筹等业务场景,运行总任务数5500+个,发现问题近100个,包括视觉还原像素级、空坑、多余留白、文本覆盖、文本截断、服务异常等问题。

总体展望

大数据系统质量评估需要业务、算法、体验目标三位一体综合衡量。数学思想、统计方法与质量工作结合,很好提升测试效率和科学性。我们今年会持续在更多质量领域,比如数据质量,素材质量运营,无线测试驱动,去深化演进质量体系,为用户带来极致的体验。



本文作者:淘宝内容导购测试团队

阅读原文

本文为云栖社区原创内容,未经允许不得转载。

上一篇下一篇

猜你喜欢

热点阅读