[读书笔记]假设检验

2018-10-24  本文已影响0人  大聖Jonathan

目录

  • 什么是假设检验?
  • 假设检验的一般步骤
  • 第一类错误和第二类错误

阅读本文,需要对抽样、总体、抽样分布有一定的了解,可以参考:[读书笔记] 关于样本和总体,需要了解哪些?

什么是假设检验?

我们通过书中的一个例子,来说明什么是假设检验以及为什么需要对假设做检验。

例子
某制药公司宣称,改公司研发的一款治疗打鼾的药,可以使患者两周内的治愈率为90%。某医院医生,在临床观察中抽取了15名患者发现:两周治疗后,治愈的患者数为11,未治愈患者数为4。根据制药公司都说法,这15名患者中,应该有14人治愈。现在问题来了,到底该制药公司发布的是虚假广告,还是医生抽样数据有问题?

我们可以对制药公司的断言进行检验:首先假设制药公司的断言属实,然后出这个断言出发对现有的证据进行检验,最后做出决策。这个过程,称为假设检验

假设检验的一般步骤

假设检验一般分为以下几个步骤,下来我们分别来看看。

1. 确定要进行检验的假设

这里有两个很重要的概念:原假设和备选假设。原假设是我们要对其进行检验的断言,用H_0表示;与原假设对立的是备选假设,用H_1表示。进行假设检验时,假定原假设为真;如果有足够的证据反驳原假设,则拒绝原假设,接受备选假设。

对于上述的例子,原假设和备选假设分别是:
原假设:药物能够在两周内治愈90%的患者,记作:H_0:p=0.9
备选假设:药物在两周内治愈患者少于90%,记作:H_1:p<0.9

2. 选择检验统计量

检验统计量即用于进行假设检验的统计量,我们根据原假设选择检验统计量。现在需要对『药物能够在两周内治愈90%的患者』做检验,这里检验统计量为样本人数,用X表示。由于X服从二项分布,记作:X \sim B(15,0.9)

3. 确定拒绝域

样本中,治愈的患者数越少,那么可用于反驳原假设的证据就越有力。但问题是:如何判断判断用于反驳的证据足够有力?这时候就引入了几个概念:显著水平、临界值和拒绝域。下面我们结合下图来说明。


显著性水平、临界值、拒绝域

显著性水平:希望样本结果的不可能程度达到多大时,拒绝原假设。这是一个概率值,使用\alpha表示,值通常取5%。(看着好像有点云里雾里)

我们结合上述例子来理解:现在原假设是药物能够在两周内治愈90%的患者,理想情况下治愈人数是90%*15=14。如果说,现在治愈人数小数14人,并且治愈人数越小,我们越有信息否定原假设。至于说治愈人数要多小才能拒绝,这个就是通过显著性水平来决定。上面说到,显著性水平是一个概率值,这个概率值对应到样本的抽样分布上,会对应一个值c (临界值),使得P(X<c) < \alpha \quad \alpha=0.05 (拒绝域)。这里的值c就是临界值,并且治愈人数小于c的概率是0.05。所以说,如果现在抽样结果是治愈人数小于c,我们就有理由在当前条件下拒绝原假设。

根据备选假设的不同会出现不同方向的拒绝域,拒绝域可能在左尾,也可能在右尾,或者左右都存在。拒绝域是用于拒绝原假设,那反过来理解的话,其实拒绝域就是备选假设的接受域。因此根据备选假设不同,拒绝域也就不同:

备选假设 - 概率小于某个值

单尾检验 - 左尾.png

备选假设 - 概率大于某个值

单尾检验 - 右尾.png

备选假设 - 概率不等于某个值

双尾检验.png
4. 求出p值

p值是某个小于或者等于拒绝域方向上的一个样本数值的概率。或者通俗点讲:p值是一个概率,这个概率是在假设原假设为真时,你所得到的观察数据的一个概率。(How often you could get the observed test statistic if the null hypothesis was true. This is the p-value)

仍然以上面的例子为例:在计算中,一般不需要去求c值,只需要根据样本抽样分布情况,求出P(X<11)也就是p值即可,(这里的11,是上文提到的医生抽样观察的结果是11个人治愈,也就是对应样本中的治愈人数)。例子中,样本人数服从二项分布,因此可以根据二项分布的概率计算求出p值。

5. 判断样本结果是否位于拒绝域中?

判断是否位于拒绝域中,就是比较p值与α进行比较,所以样本结果位于拒绝域的条件是:

6. 做出决策

根据上一个步骤的计算结果,如果p值落在拒绝域以内,则拒绝原假设,接收备选假设;否则,接受原假设,拒绝备选假设。

第一类错误和第二类错误

前面介绍了假设检验是在某一个显著性水平下进行的。换句话说,完成检验后得出的结论(接受或者否定假设)也不是一个事实,这个结论仅仅也是一个推断,只不过我们对这个推断有比较大的信心(概率)相信结论是正确的。既然是推断,那就有推断错误的时候,这就引出了两类错误:

之所以需要指出第一类和第二类错误,是为了引出功效的概念。功效也是一种概率,是原假设错误的情况下,拒绝原假设的概率:
功效 = 1 - P(第二类错误)

上一篇下一篇

猜你喜欢

热点阅读