| 产品设计 | 产品增长利器——A/B测试
产品增长与A/B测试
设计师小A最近接到了老板的一个需求:”电商旧版的落地页用了好久了,小A,你这个月的核心工作就是优化这个落地页,提高我们的转化率“。“好咧!”受到了老板的器重,小A决定大干一番。在改版的时候,小A觉得旧版的落地页这也不好,那儿也不行,基本上把旧落地页里朝外改了个遍,老板看后也挺满意。很快,新版落地页上线了。结果刚上线一周,就受到客服、销售人员的各种抱怨,怎么新版本的转化率比原来还低!老板对小A失望透顶,小A却委屈巴巴,"明明我的设计比旧版好多了啊!!咋转化率还低了这么多?"郁闷的小A不知所措……
每一次的改版,我们都希望新的产品方案会比旧的好,为产品带来更多的增长。但当上线后的结果与我们期望相悖时,往往会打击产品设计师热忱的初心。对于那些承载产品主要商业目标的页面,如落地页、商品详情页、订单确认页面等,设计师千万不要盲目自信,在改版后就急于让新版本立即上线。
在这篇文章中,我们来聊一聊,保障产品增长的关键步骤——A/B测试。
A/B测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
为什么要实施A/B测试?宜人贷UGD负责人刘津曾在用户增长设计的公开课中提到了一个关于落地营销页面的改版案例。最初,他们针对落地页改了很多版本,并且都是整版改版,结果发现整体改版效果并不佳,于是改变策略,一个模块一个模块打磨优化,根据数据结果,在40天里,通过A/B测试将同一个落地页的各个模块打磨至最优化的方案,共提升了70%的转化率。
通过A/B测试,能够检验新的版本是否达到了优化预期,若在A/B测试中发现新版有问题,可降低直接发布新版带来的风险,为改版创新提供更可靠的保障。其次,当有多个产品方案,或设计中有意见不统一、不知哪个版本效果更好的时候,通过A/B测试,也能直观地通过数据结果得出最佳方案。最后,通过对比试验,可以进一步地挖掘产品的问题和造成的原因,有利于产品设计的优化。
产品增长核心目标——北极星指标
北极星,是最靠近北天极的一颗星,也是夜空中能看到的亮度和位置较稳定的恒星。北极星指标往往与产品的战略目标相契合,是明确公司长期优先级,指引公司提升长期价值的方法。同时,北极星指标能体现出产品对于用户的核心价值,反应用户与产品的交互。需要注意的是,北极星指标是方向性指标,需要在产品的生命周期中持续迭代。以下是一些公司的北极星指标:
Facebook: 月活跃用户数
LinkedIn:高质量注册人数
eBay: GMV 商品交易总量
Slack: 发送超过2000条信息的团队数量
Airbnb: 订房天数 知乎:问题回答总数
从例子中我们可以看到,北极星指标是具体的,不是抽象的。针对同一对象的不同量化方法,也会导致北极星指标的不同。比如,”用户数“和”月活用户数“就是两个完全不同的北极星指标。再比如,电商中,同样是与交易相关的”商品交易总量“和”客单价“也是不同的指标。
北极星指标看似一个简单的指标,但绝不是一拍脑袋就决定的事情,需要战略分析师们深入分析,什么是真正能够引领产品增长的指标。确定了北极星指标,在做产品版本测试的时候,即可明确重点要去测什么,以什么为基准去衡量版本的优劣了。
AB测试试验步骤
1. 确定测试指标
在确定了北极星指标后, 需要将测试指标进行细化,拆分成可以量化的具体指标。在每次A/B测试中,指标要聚焦,建议选取1-2个关键指标进行测试。电商网站可以是商品的下单率,加入购物车率;社交产品可以是用户消息回复率;邮箱等工具可以是日活等。
2. 创建测试版本
创建两个或多个需要测试的版本,需要注意的是,每个版本之间仅允许有一个变量。如果两个版本之间存在多个变量,很难量化是哪个变量造成的结果差异。通过控制变量,可清晰明确的看到变量引起的结果。不同变量的版本可用流量分层的方法在同一时间并行试验。
3. 选择测试样本
试验样本来自使用产品的部分人群。为确保测试结果有意义,分配到每个测试页面的访客必须全部来自样本组。要确保每个版本的测试页面都有同样类型的访客。并且,要保证每个测试访客在回到受测页面时候看到的是同一个变体。
4. 预估试验周期
测试的时间越长,样本量越大,获得的结果越稳定可靠。根据所需的样本大小,以及项目允许时长,去预估合理的试验周期,试验周期可从一周到一个月,甚至更久。
5. 运行试验
当制定好试验方案,就可以开始运行试验了。若公司无内部的A/B测试系统,可以采用市面上一些比较成熟的A/B测试第三方工具,如吆喝科技和Testin等等。这些第三方工具一般会有自带分析工具,操作使用上更加便利。
6. 分析测试结果
在一定的测试周期内,监测到B版本的转化率比A版本高/低,是不是就可以说明B版本比A版本好/坏呢?直接拿数据的多少来对比是不科学的,我们需要通过统计学方法去判断两个设计的差别是否比随机事件的概率要大。
显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。 假设检验的种类包括:t检验,Z检验,卡方检验,F检验等。
通常把一个要检验的假设记作H0,称为原假设(或零假设) (null hypothesis) ,与H0对立的假设记作H1,称为备择假设(alternative hypothesis)。
P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分,表明结果越显著,置信水平越高。P值一般取0.01、0.05和0.1。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。如果0.01<P值<0.05,说明较弱的判定结果,拒绝假定的参数取值。如果P值>0.05,说明结果更倾向于接受假定的参数取值。
除了要知道差异是否显著外,还需要知道差异的多少。即需要计算出两个比例的差异的置信区间。置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。置信区间的两端被称为置信极限。对一个给定情形的估计来说,置信水平越高,所对应的置信区间就会越大。
举例来说,在一次电商网站A/B测试中,比较哪一个产品页面能带来更多的购买转化率。根据检验结果,版本一的转化率比原始版本高,且存在显著性差异,其置信水平95%以上的置信区间是(0.4%,5.8%)。那么可以预期,如果版本一对所有用户进行测试,其转化率比原始版本转化率高出0.4%到5.8%。版本二的转化率也比原始版本显著提升,且其置信水平95%以上的置信区间是(6%,10%),即版本二有95%的概率比原始版本的提升6%~10%的转化率。由于版本一比原始版本只显著提升0.4%~5.8%,因此,我们认为版本二比版本一的显著提升的作用更明显,效果更理想。
A/B测试需要注意
1. 测试变量唯一
由于A/B测试是控制试验,要想A/B测试试验结果有效,只有将自变量以外一切能引起因变量变化的变量控制好,才能弄清实验中的因果关系,因此,需要保证因变量的唯一性。建议每次改版小步迭代,不要一来就大改,再通过A/B测试一步步优化。
2. 测试指标与北极星指标契合
测试的指标与北极星指标是息息相关的。测试的指标如果偏离了北极星指标,测试的结果对产品增长的意义也不大。
3. 不要过早地停止试验
过早地胜利可能是诱人的,测试运行时间足够长才能获得有效的统计结果。一旦你设置了一个样本大小,坚持下去,不要得到了满意的结果就放弃试验!
4. 避免不科学的方法和不可靠的数据
要保证试验样本是在同一测试时间内完成的试验。如果在不同的时间做的试验,获得的数据是不可靠的,也无法对数据进行比对。一定要按照A/B测试的流程严格来执行。
5. 探求差异原因
通过A/B测试只能得出变量对因果的影响,若需要探索其背后原因,还需要去进行深入的定性分析。
参考资料:
感谢阅读~希望这篇文章对你有帮助 :)
By 爱生活爱旅游的用户体验设计师 do小鱼
你也许还感兴趣: