[TOCE] 10 P1-C3-S2 Twyman 定律与实

2021-03-17  本文已影响0人  数科每日

Trustworthy Online Controlled Experiments Part 1 Chap 3


可能影响实验内部有效的因素

内部有效性指的是实验本身正确与否, 并不涉及到将实验结论外推到其他情况。

违反 SUTVA

Stable Unit Treatment Value Assumption (SUTVA) : 实验对象的行为必须独立, 实验对象之间不能互相影响。

在以下情况下, SUTVA 可能会被违反:

幸存者偏误

分析活跃一段时间(例如两个月)的用户的实验会引入生存偏差。一个著名的例子来自第二次世界大战,当时美国决定增加装甲轰炸机。美军记录了飞机遭受最大伤害的部位,军方自然想在飞机受伤最厉害的部位增加装甲。亚伯拉罕·瓦尔德(Abraham Wald)指出,这是添加装甲的最糟糕的方案。由于子弹孔几乎均匀分布,因此应在没有子弹孔的地方添加装甲,因为那些部位被击中的飞机很少能飞回来, 也就不会被检查到。( Denrell 2005,Dmitriev等人2016)。

意向性治疗(Intention-to-Treat)

在某些实验中,变体存在非随机损耗。例如,在医疗环境中,如果“治疗”中的患者有副作用,则可能会停止服用该药物。在在线世界中,你可能会为所有广告客户提供优化其广告的机会,但是只有一些广告客户选择进行建议的优化。如果仅分析那些实验参加者,会导致选择偏见,从而会夸大治疗效果。Intention-to-Treat 问题指的是:如果我们不去考察实验对象到底是否采用了Treatment ,那么我们比较的可能只是 “想要参与实验” 或者 “被安排参与实验” 的参实验者之间的差异。 我们需要确保, 在 治疗组中的人切切实实的获得了“治疗”。

Sample Ratio Mismatch (SRM) 实验样本不平衡

如果用户比例(或任何随机单位)不接近设计比例,则该实验将遭受“样本比例不匹配”(SRM)。例如,如果实验设计是一对一的比例(均等的控制和治疗),那么实验中用户实际比例的偏差可能预示着需要调试(请参阅第21章)。下面的例子。

如果实验设计的 Control 和 Treament 组的比率是 1, 那么如果当实际样本比例在 (0.99 , 1.01) 以外时,就要小心。 同时, 如果比例的 p-value 低于0.001 时, 就要停止实验。

"注释" 这里作者主要指的是实验人数无法预先设定的实验, 这里说的 “实验设计的 Control 和 Treament 组的比率是 1” 只是按照理论推导出来的。 如果是医药实验, Control 和 Treatment 都预先选好了就不会有这样的问题。 对于在线实验, 比如A , B两个网页, 研究者只能说预期两个页面访问量是 1:1 , 这个可能是从过往经验中得到的。

如先前所定义,p值意味者如果 Null 假设为真时,观察和当前情况一样极端或者更加极端的情况。如果实验设计是对两个变量均等地分配,那么通过设计,应该获得接近1.0的比率,即Null假设应该是正确的。因此,p值表示我们观察到的比率(或更极端的比率)与我们的实验系统的设计一致的概率。这项简单的测试可以确定实验中的许多问题,其中许多问题一开始看起来就很糟糕, 符合Twyman定律。以下是一些例子:

初始结果显示该治疗的用户参与度显着降低,但该实验具有SRM:该比率为0.992而不是1.0。在每个组中有超过800,000个用户,这种比例的p值为0.0000007,这意味着,即使设计是针对相等的分组,这种分组的概率也是偶然发生的。调查发现,由于“治疗”中的用户参与度增加,因此,一些参与度最高的用户被归类为机器人(系统日常的Pipeline 中对机器人的过滤机制被触发),并从分析中删除。纠正此机器人过滤条件后,结果显示了相反的“治疗效果”:“治疗”中的用户参与度提高了3.3%!

机器人过滤是一个很严重的问题, 在美国50% 的访问量来自于机器人, 而在中国和俄罗斯,这一比例高达 90%。

SRM检查至关重要。如最后一个示例所示,即使很小的不平衡也会导致治疗效果的逆转。 SRM通常是由于极端用户而造成的,这些用户要么非常好(例如重度使用用户),要么非常糟糕(这些用户没有点击计数)。这表明即使人口差异看起来很小,也可能导致结果显着偏斜。

上一篇 下一篇

猜你喜欢

热点阅读