第3章:Twyman 法则 以及 实验可信程度 || 《可信的线

2021-09-11  本文已影响0人  zzzzzzzeng

Twyman法则:数据越不寻常或越有趣,越可能存在错误。

1. 对统计结果的一些错误解释(misinterpretation)

缺乏统计功效(β)

误解了p值

p值偷窥:持续观察p值,并在p值小于

多重假设检验:多重比较问题

一些常见的错误:

  1. 观察多个指标(其中一个有效就认为实验能提升这个指标)
  2. p值偷窥
  3. 观察部分用户,比如只观察特定国家,性别,活跃度分组用户。
  4. 观察一连串的实验

(CHAP17如何解决多重测试的问题)

2. 置信区间

3. 内部有效性的一些威胁

内部有效性的含义

SUTVA的不稳定

幸存者偏差

治疗意向效应(intetion-to-treat)

样本比率偏差问题(Sample Ratio Mismatch, SRM)

4. 对外部有效性的威胁

外部有效性的含义

人群扩展的效果确认方法

时间维度的拓展

时间维度的拓展通常通过延长实验的时长至数月(保留1%的对照组)来观察。导致时间维度偏差的两大因素是首要效应和新奇效应。

5. 人群差异

一些不错的分组方法(维度)

  1. 地理位置:国家,地区,语言。
  2. 设备或平台:系统平台:ios/android,手机品牌,浏览器种类,app版本等。
  3. 时间:time of day/ day of week
  4. 用户类型:活跃度,是否新用户
  5. 用户属性:Netflix个人账户或家庭账户等

z:这些维度也是在非a/b实验的平常数据监控和展示时常关注的。

实验中分组查看数据常有两种方法:

  1. 不分A/B对比各组的汇总数据:不同平台的CTR。
  2. 分A/B组查看各组的数据
    1. 这种方式可以带来更多的见解和发现,譬如新上的功能对新用户的留存促进显著而对老用户无显著作用,且整体无显著作用。

分组分析可能会带来误解

辛普森悖论

定义

特点

上一篇下一篇

猜你喜欢

热点阅读