学习笔记 | 浅谈两类错误、势函数、p值及其应用
©统计炖鸡汤
摘要
统计推断是统计学中一重要内容.在一个或两个总体的统计分析问题中,统计推断的两个组成部分是参数估计和假设检验.[1]
假设检验与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立.参数估计还不够吗,为什么还有假设检验呢❓这是因为科学家和工程师在实际中遇到的问题可能不仅只讨论关于总体参数的估计,而更多的是如何基于数据产生一个决策过程,该决策通常可以得出某个科学体系下的一些结论.原则上,在每一种情况下,这些猜测都可以用统计假设的形式提出来,而如何给出接受或拒绝统计假设的决策过程则构成了假设检验这个重要领域.[2]
1 错误和功效函数(势函数)
1.1 两类错误
当零假设为真时拒绝零假设称为第一类错误;当零假设不为真时不拒绝零假设称为第二类错误.
犯第一类错误的概率也称为显著水平,有时显著水平也称为检验的大小,记为α.通常取最小可能的水平
作为显著性水平
,这样就解决了检验的水平的唯一性.一般的,我们将水平定义为如下含义:
形成一个默契,只要可能,尽量找最小的α.显著性水平是人们事先指定的犯第一类错误概率α的最大允许值.实际应用中,显著性水平是人们事先给出的一个值,这也意味着事先确定了拒绝域.为什么要事先给出呢❓因为确定了显著性水平α就等于控制了第一类错误的概率.[3]
犯第二类错误的概率即为β,只有在给定具体的备择假设下,才能计算出第二类错误的概率.
对于一个固定的样本量,一般不可能做到使两类错误同时任意小.追求一个好的检验,通常将考虑限制在能把犯第一类错误的概率控制在一个指定水平上的那些检验上.在这类检验中,再去追求犯第二类错误的概率尽可能小的检验.
1.2 功效函数
理想的功效函数对于所有使原假设成立的参数代入后函数值是0,而对于所有使备择假设成立的参数带入后函数值是1.除非在平凡情况,这种理想不可能达到.一个好的检验的功效函数都是接近于上述值.
一个检验的功效函数依赖于样本量n,这是有代表性的.如果n可以由试验者选择,对功效函数进行考虑,就能帮助其决定在一个试验中取多大的样本量合适.(S:潜台词是并不是n越大越好)
这里特别引入一个与错误概率相关的重要概念就是检验的势
,是指当给定的备择假设为真时拒绝原假设的概率,也就是功效函数当参数满足备择条件时的值.通常可以用检验的势来比较不同的检验方法.
2 p值
2.1 p值的定义与意义
如果原假设为真,所得到的样本结果会像实际观测结果那么极端或者更极端的概率,称为p值
,也称为观察到的显著性水平.[3]
p值与原假设对与错的概率无关,它是关于数据的概率.p值表明在某个总体的许多样本中.某一类数据出现的经常程度,即原假设正确时,得到所观测的数据的概率,及p值告诉我们如果原假设是正确的,观测数据会有多么不可能得到.相当不可能得到的数据,就是原假设不对的合理证据.我们永远也不会知道,对总体来说,原假设是否正确.如果取显著性水平为5%,我们只能说:如果原假设为真,这样的数据只有5%的可能性会发生.p值是反映实际观测到的数据与原假设之间不一致程度的一个概率值.p值越小,说明实际观测到的数据与原假设之间的不一致的程度就越大,检验的结果就越显著.[3]
2.2 p值的决策
p值与α的关系❓p值有效地补充了α提供的关于检验可靠性的有限信息.因为α是犯第一类错误的上限控制值,它只能提供检验结论可靠的一个大致范围,而对于一个特定的假设检验问题.也就是说,如果选择的α值相同,所有检验结论的可靠性都一样.要测量出样本观测数据与原假设中假设的值的偏离程度,则需要计算p值.利用统计量根据显著性水平作出决策,如果拒绝原假设,也仅仅是知道犯错误的可能性是α那么大,但究竟是多少却不知道.而p值则是犯错误的实际概率.[3]
在已知p值的条件下,将其与给定的显著性水平α将进行比较,就可以确定是否应该拒绝原假设.通常,将两侧面积的总和定义为p值.如果p值<α,拒绝原假设;如果p值>α,不拒绝原假设.[3]