第18章方差估计和敏感度提升 ||《可信的线上受控实验》||

2021-09-11 本文已影响0人 zzzzzzzeng

1. 方差常见缺陷

使用错估的方差可能导致实验不可信：

大于实际方差，导致 FP(第一类错误，拒绝原假设）：计算方差越大，分布越平摊，p值越大

小于实际方差，导致FN

percent delta 常用于评估效果，它的方差应该是var(Yt_bar/Yc_bar)。分子分母分别是实验组和控制组的指标均值的抽样分布的均值。

比如CTR指标的分析单元是点击，而如果实验单元是用户，那么CTR的分析单元和实验单元则不同，也就不满足i.i.d.(独立同分布）。

虽然可以通过UTR或者计算单个用户的CTR再求均值(而非使用整体click除以view)来替代ctr指标，被称为average of ratio，单这两种计算都只给予了每个用户相同的权重。

而 ratio of "average of user level metrics"， M=X_bar/Y_bar则可以使用 delta method来计算方差。

delta 方法的CTR方差

而一些指标无法由两个用户级别的指标计算而来的复合指标，比如页面加载时间的90分位数，则可以使用Bootstrap来获得。（Bootstrap可以参考ab doc）

离群值对方差的影响大于对均值的影响，书中演示在一个实例中，加入一个离群值，随着离群值逐渐增大，t检验量逐渐减小，最终实验组不再显著优于控制组。因此使用技术方法或场景经验剔除离群值是十分必要的。

提高敏感度，通常即是提高功效，常见的手段则是减小方差，减小方差的方法：

选择低方差的指标替代同质的高方差的指标：比如使用购买转换率替换购买花销。
capping(设置最大值，大于改值的值转换成最大值)，对长尾数据计算对数指标，转换成二项分布指标（比如netflix设置将时长是否大于1H生成一个二项分布的指标）。
triggered analysis(第二十章会介绍trigger)：移除不受改动影响的用户，从而移除他们带来的噪音。
用户分层，控制变量法（control variates)，CUPED等方法。
1. 用户分层：仅求和组内方差，剔除组间方差以减小总方差。
2. 控制变量法
  
  控制变量法 - 维基百科，自由的百科全书
3. CUPED
在更细粒度随机分流实验单元，比如对页面加载时间的影响，在单个页面进行随机分配，而非对每个用户分配一个固定的加载时间。但这会引入缺点
1. 用户体验不连贯。
2. 没法计算用户级别的指标：比如用户人均pv，留存等等。
匹配样本(paired/matched samples)：对同一批用户展示对照和控制两组内容：搜索结果排序结果常用。（商务与经济统计举例工人前后使用两种装配方法，直接用统一工人两组方法的消耗时间之差作为统计量，之后进行单样本的估计和假设检验。）
多组实验共享对照组