A/B测试的”坑“

2020-06-14  本文已影响0人  成鹏9

A/B测试是产品版本迭代的核心评估工具,也是数据化决策的典型应用,好处多多,我就不再赘述了。

但今天我就想讲讲A/B测试的一些“坑”,有些“坑”甚至都把分析师坑的眼泪汪汪。

第一种“坑”,没有核心KPI,就去做A/B测试

产品同学想上线一个功能,但是不知道上线这个功能给产品带来什么提升,没有一个核心的KPI,做完A/B测试后,要求分析师把A/B测试人群对应的所有指标都提供出来,然后把有显著变化的指标挑出来向上汇报。

第二种“坑”,不看显著性

对于这类同学,我有两个问题:

样本能100%代表总体吗?不能。

A组指标高于B组,就代表A组效果好吗?不一定。

所以我们需要利用显著性检验,利用大概率事件,这分析的基本要求。

第三种“坑”,手动分解A/B组人群,手动找出显著性

有的同学发现功能上线后,A/B测试没有效果,甚至还有负向效果。他就会提出这样的问题“那这个功能是不是对部分用户有效呢?比如女性”,于是要求分析师按照他的要求把A/B组人群分成男女四组,然后看各自指标的变化。

当然,当你的拆解随机且样本比例一致的情况下,确实可以做如此分析。问题是你没法随机拆解,比例也不一样啊,而且当这位同学发现这种拆解也是没有显著性的情况,他会想到另一种拆解方法,这样分析师就会陷入“拆解-分析-没有效果-拆解”的死循环中,活活累死。

第四种“坑”,一个功能,上多个A/B测试

这种同学一看就是老手,很鸡贼。他找到了这个A/B测试的漏洞,他完全可以对一个功能上10个A/B测试,总有一个是有显著性的,这批不行,还有下批,直到有效才停止。

第五个“坑”,对比分析不同A/B测试项目

有些同学很善于思考,他发现他上的C功能和D功能的A/B测试结果不一样,一个有显著性,另一个没有显著性,他就会问分析师“为什么会出现这种情况?”,然后就是“能不能对这两个项目的A/B测试结果分析一下?”。

当你接到这个活之后,你会发现,你要分析就必须踏入第三个“坑”,就是无限拆解人群。

第六个“坑”,根据A/B测试的结果算增量

当我们回答了“是否有效果?”的问题后,接踵而来的问题就是“有多少效果?”。根据A/B测试的结果去评估效果,到底是不是一件可靠的事情,这个问题需要单开一篇来讲。这个问题的如果处理的稍有不慎,就会引起非常大的问题。我之前绝大部分的无意义工作,都来自于对该指标的处理不慎。

说了这么多A/B测试的“坑”,其实我理解这种“坑”是一种脱离应用场景的动作变形A/B测试本质上是一种是在产品精细化迭代场景中的评估效果的工具,既然是一种工具,它就会有应用场景和应用限制,当超出其应用场景和脱离了应用限制,这个工具就失效了,也就是说A/B测试不是万能

作为一种工具,它的定位是辅助决策,而不是代替我们决策

有位大佬对A/B测试做了如下评价,虽然不是很特别客观,但是也不失为目前A/B测试的现状做一次警醒。

我们为什么会有大量的AB测试呢?其实很多事情根本不用测,稍微有点产品感觉就能拍了。你们连逻辑都说不清,自然就拍不了。你们需要用数据来说话的时候,常常是因为你们用逻辑说不了话。                                                                              -- 某位大佬

上一篇下一篇

猜你喜欢

热点阅读