假设检验
2022-05-06 本文已影响0人
Nefelibatas
假设检验
假设检验是现实数据分析和数据产品得以演化的核心步骤。
对于一款数据产品,特别是已经上线的产品来说,能够持续地做线上 A/B 测试,通过 A/B 测试检测重要的产品指标,从而指导产品迭代,已经成为产品成败的关键因素。
这里面,通过 A/B 测试衡量产品指标,或多或少就是做某种形式的假设检验。
你期望提高产品性能,那么如何理解假设检验,选取合适的工具,理解 P 值等一系列细节就至关重要,这些细节决定了你辛辛苦苦使用的复杂人工智能模型算法是否有实际作用。
流程
-
熟悉假设检验的基本设定。
-
把现在的系统情况(比方说用户的点击率、购买率等)当做零假设,或者通常叫做 H0。
-
把改进的系统情况或者算法产生的结果,叫做备择假设,或者叫做 H1。
-
【重要步骤】检验目前的实验环境,看是否满足一些标准检验的假设环境,比如 T 检验、Z 检验等。
- 一个非常粗略的窍门则是,因为中心极限定理的存在,Z 检验通常是一个可以缺省使用的检验
- 在绝大多数情况下,如果我们拥有大量数据可供使用,一般会选择 Z 检验。
-
计算相应的统计量。根据相应的统计量以及选好的检验,就可以得到一系列的数值。
- 比如 P 值。利用 P 值以及预先设定的一个范围值,比如经常设置的 0.95(或者说 95%),往往就可以确定,H1 是否在统计意义上和 H0 不同。
- 如果 H1 代表着新算法、新模型,也就意味着新结果比老系统、老算法有可能要好。
- 从本质上来说,假设检验并不是金科玉律。假设检验本身就是一个统计推断的过程。在假设检验的流程中计算的,其实是统计量在 H0 假设下的分布中出现的可能性。
- 可能性低只能说观测到的现象或者数值并不支持我们的 H0,但这个流程并没有去验证这些现象或者数值是不是更加支持 H1。
- 即便“可能性”低,也并不代表绝对不出现。比较正确的对待假设检验的态度,就是把这个流程提供的结果当做工具,与更加复杂的决策过程结合起来,从而对目前的系统、目前的产品有一个综合的分析。
- 和假设检验有关联的一个概念“置信区间”往往也很容易被忽视。尽管初看没有太大作用,置信区间其实被广泛应用在推荐系统的“利用和探索”(Exploitation & Exploration)策略中。因此,明白置信区间的概念很有益处,对实际的计算有很大帮助。