[TOCE] 34 P5-C18-S1 在线受控实验背后的统计

2021-05-12  本文已影响0人  数科每日

Trustworthy Online Controlled Experiments Part 5 Chap 18


方差估计和灵敏度提高:陷阱和解决方案

With great power comes small effect size
--- Unknown

为什么重要

如果无法以可信赖的方式分析实验,那么进行实验有什么意义呢?方差是实验分析的核心。我们介绍的几乎所有关键统计概念都与方差相关,例如统计显着性,p值,功效和置信区间。不仅要正确估计方差,而且要了解如何实现方差减少以提高统计假设检验的敏感性,这很有必要。

本章介绍方差,方差是计算p值和置信区间的最关键要素。我们主要关注两个主题:方差估计中的常见陷阱(和解决方案)以及减少方差以提高灵敏度的技术。

让我们回顾一下计算平均指标方差的标准过程,其中i = 1,…,n个独立的均匀分布(i.i.d.)样本。

常见陷阱

如果您错误地估计了方差,则p值和置信区间将不正确,从而使假设检验的结论是错误的。关于方差估计,这里有一些常见的陷阱:

Delta vs. Delta %

在报告实验结果时,通常会使用相对差异而不是绝对差异。如果平均用户会话增加了0.01次,决策者很难判断它的实际意义。决策者通常理解遇到的是增加1%的幅度, 也就是相对差异(称为百分比增量)定义为:(18.1)

image.png

为了正确估计\Delta %的置信区间,我们需要估计其方差。差异的方差是每个成分的方差之和:(18.2)

image.png

要估算\Delta %的方差,常见的错误是将var(Δ)除以 \overline{Y^{c}}^{2},即 \frac{\operatorname{var}(\Delta)}{\overline{Y^{c}}^{2}}。这是不正确的,因为它本身是一个随机变量。估计方差的正确方法是:(18.3)

image.png

我们将在下面的部分中讨论如何估算比率的方差。

比率指标,当分析的单位与实验的单位不同时

许多重要指标来自两个指标的比率。例如,点击率(CTR)通常定义为总点击次数与总浏览量之比;每次点击收入定义为总收入与总点击次数之比。与诸如“每用户点击次数”或“每用户收入”之类的指标不同,当使用两个指标的比率时,分析单位不再是用户,而是浏览量或点击次数。当按用户随机分配实验时,这可能会给估算方差带来挑战。

方差公式\operatorname{var}(Y)=\hat{\sigma}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}非常简单优雅,很容易忘记其背后的关键假设:样本(Y1,…,Yn)必须为i.i.d。 (独立地相同地分布)或至少不相关。如果分析单位与实验(随机)单位相同,则满足此假设, 否则一般会违反这个假设。对于用户级指标,每个Yi代表用户的度量。分析单位与实验单位匹配,因此i.i.d.假设是有效的。但是,对于页面级指标,每个Yi代表页面的度量,而实验是由用户随机进行的,因此Y1,Y2和Y3都可能来自同一用户,并且是“相关的”。由于存在这种“用户相关性”,因此使用简单公式计算出的方差会产生偏差。

为了正确估计方差,可以将比率指标写为“用户级别指标的平均值”的比率(见公式18.4)


image.png

因为 \overline X\overline Y 在极限上是联合正态分布,所以M作为平均值的比,也呈正态分布。因此,通过delta方法,我们可以将方差估计为(Deng等人,2017年)(请参见公式18.5):

image.png

因为,在\Delta%的情况下,Y^{t}Y^{c}是独立的(请参见公式18.6)

注意,当治疗和控制手段有显著差异时,这与的不正确估计值有很大不同, 因此。

image.png

请注意,有些度量标准不能以两个用户级度量标准的比率的形式写出来,例如,页面加载时间的百分之九十。对于这些指标,我们可能需要采用bootstrap方法(Efron和Tibshriani 1994),在该方法中,通过替换抽样来模拟随机化,并从许多重复的模拟中估算出方差。尽管 bootstrap 在计算上很昂贵,但它是一项功能强大的技术,广泛适用,并且是delta方法的良好补充。

异常值

离群值有多种形式。最常见的是由僵尸程序或垃圾邮件行为(单击或执行许多综合浏览量)引起的。离群值对均值和方差都有很大影响。在统计检验中,对方差的影响往往大于对均值的影响,正如我们使用以下模拟所证明的那样。

在模拟中,处理相对于控制具有正的真实增量。如果我们向干预组添加一个单一的阳性离群值,且该离群值是增量的的倍数。当我们改变乘数(相对大小)时,我们注意到,尽管异常值增加了处理的平均值,但其增加了方差(或标准差)。结果,您可以在图18.1中看到,随着离群值的相对大小增加,t统计量减小,并且最终检验不再具有统计显着性。

image.png

在模拟中,随着我们增加(单个)离群值的大小,抽样测试从非常显着变为完全不显着

在估计方差时,必须删除异常值。一种实用有效的方法是简单地将观测值限制在合理的阈值以内。例如,人类用户不太可能一天进行500次以上的搜索或浏览超过1000次。还有许多其他离群值去除技术(Hodge和Austin 2004)。

提升敏感度

在进行对照实验时,我们希望检测“治疗”效果是否存在。该检测能力通常称为功率或灵敏度。一种提高灵敏度的方法是减少方差。以下是一些实现方差的方法:

其他统计差异

在本书的大多数讨论中,我们假设兴趣统计是均值。如果对其他统计信息(例如分位数)感兴趣,该怎么办?对于基于时间的指标(例如页面加载时间(PLT)),通常使用分位数而不是平均值来衡量站点速度性能。例如,第90个百分点或第95个百分点通常测量与用户参与相关的负载时间,而第99个百分点则通常是服务器端延迟测量。

虽然总是可以 借助 bootstrap 和 尾部概率 来对进行统计分析,但是随着数据大小的增加,这种方法在计算上变得昂贵。另一方面,如果统计量渐近地服从正态分布,则可以简单地估算方差。例如,分位数度量的渐近方差是密度的函数(Lehmann和Romano 2005)。通过估计概率密度,可以估计方差。

还有另一层复杂性。大多数基于时间的指标是在事件/页面级别,而实验是在用户级别随机进行的。在这种情况下,应结合使用密度估计和增量法(Liu等人2018)。

上一篇 下一篇

猜你喜欢

热点阅读