第18章 方差估计和敏感度提升 ||《可信的线上受控实验 》||

2021-09-11  本文已影响0人  zzzzzzzeng

1. 方差常见缺陷

使用错估的方差可能导致实验不可信:

大于实际方差,导致 FP(第一类错误, 拒绝原假设):计算方差越大,分布越平摊,p值越大

小于实际方差,导致FN

1.1. delta 和 percent delta

percent delta 常用于评估效果,它的方差应该是var(Yt_bar/Yc_bar)。分子分母分别是实验组和控制组的指标均值的抽样分布的均值。

1.2. ratio metric:分析单元和实验单元不同时

比如CTR指标的分析单元是点击,而如果实验单元是用户,那么CTR的分析单元和实验单元则不同,也就不满足i.i.d.(独立同分布)。

虽然可以通过UTR或者计算单个用户的CTR再求均值(而非使用整体click除以view)来替代ctr指标,被称为average of ratio,单这两种计算都只给予了每个用户相同的权重。

而 ratio of "average of user level metrics", M=X_bar/Y_bar则可以使用 delta method来计算方差。

delta 方法的CTR方差

而一些指标无法由两个用户级别的指标计算而来的复合指标,比如页面加载时间的90分位数,则可以使用Bootstrap来获得。(Bootstrap可以参考ab doc)

1.3. 离群值(outliers)

离群值对方差的影响大于对均值的影响,书中演示在一个实例中,加入一个离群值,随着离群值逐渐增大,t检验量逐渐减小,最终实验组不再显著优于控制组。因此使用技术方法或场景经验剔除离群值是十分必要的。

2. 提高敏感度(减小方差)

提高敏感度,通常即是提高功效,常见的手段则是减小方差,减小方差的方法:

  1. 选择低方差的指标替代同质的高方差的指标:比如使用购买转换率替换购买花销。

  2. capping(设置最大值,大于改值的值转换成最大值), 对长尾数据计算对数指标, 转换成二项分布指标(比如netflix设置将时长是否大于1H生成一个二项分布的指标)。

  3. triggered analysis(第二十章会介绍trigger):移除不受改动影响的用户,从而移除他们带来的噪音。

  4. 用户分层,控制变量法(control variates),CUPED等方法。

    1. 用户分层:仅求和组内方差,剔除组间方差以减小总方差。

    2. 控制变量法

      控制变量法 - 维基百科,自由的百科全书

    3. CUPED

  5. 在更细粒度随机分流实验单元,比如对页面加载时间的影响,在单个页面进行随机分配,而非对每个用户分配一个固定的加载时间。但这会引入缺点

    1. 用户体验不连贯。
    2. 没法计算用户级别的指标:比如用户人均pv,留存等等。
  6. 匹配样本(paired/matched samples):对同一批用户展示对照和控制两组内容:搜索结果排序结果常用。(商务与经济统计举例 工人前后使用两种装配方法,直接用统一工人两组方法的消耗时间之差作为统计量,之后进行单样本的估计和假设检验。)

  7. 多组实验共享对照组

上一篇下一篇

猜你喜欢

热点阅读