推断统计(4) - 假设检验
推断统计是研究如何利用样本数据来推断总体特征的统计方法,其特点是根据速记的观测样本数据以及问题的条件和假定,对未知事物作出的以概率形式表述的推断。推断性统计有四个理论部分:概率理论,抽样理论、估计理论和假设检验理论。概率理论和抽样理论是推断性统计的基础,而估计理论和假设检验理论是推断性统计的应用。
基本概念
假设检验的基本思想是统计学的小概率反证法思想:对于一个小概率事件而言,其互斥事件发生的概率明显远远大于这一小概率事件,可以认为小概率事件在一次试验中不应当发生。因此,可以首先假定需要考察的假设是成立的,然后基于此假设计算从总体中抽样得到样本的概率,如果概率极小,则表明这是一个小概率事件,在一次试验中不会发生,进而推翻原假设。
假设检验的具体步骤为:1.提出零假设和备择假设;2.构造检验统计量,并找出在零假设成立的情况下,检验统计量服从的分布;3.确定显著性水平、拒绝域以及临界值;4.计算检验统计量和p值;5.决策。
检验统计量是根据样本观测结果计算得到的样本统计量,是对零假设和备择假设作出决策的基础。检验统计量共有三种,包括:
以上三种检验统计量对应的分布分别为:Z检验分布、T检验分布以及卡方检验分布。Z检验分布一般用于大样本(n>30)平均值差异性检验的方法,是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著,在国内也被称为也被称为u检验。T检验分布主要用于样本含量极小(n<30)、总体标准差位置的正态分布,T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,卡方值的大小就决定了偏离程度的大小,两者呈正相关,若卡方值为0表明实际观测完全符合理论。
值得注意的是:假设检验里存在弃真和取伪两类错误。弃真错误通俗讲就是“漏诊”,将正确的假设拒绝掉了;取伪错误通俗讲就是“误诊”,将假设的错误接受了。弃真错误的值一般是0.05,取伪错误的值一般是0.1或0.2,除此之外还有一个指标叫“功效(power)",表示正确拒绝零假设的能力,一般为通过:power=1-取伪错误 计算。
假设检验可以分为两部分:如果原假设是关于总体参数的,则称之为参数假设,相应的检验称之为参数检验;如果原假设是关于总体分布类型的,则称之为分布假设,检验分布假设问题的检验称之为分布检验(也称非参数检验)。由于参数检验的精确度高于非参数检验,因此在数据符合参数检验的条件下,优先采用参数检验;当由于各种因素的未知性导致参数统计的方法不再适用是,可以采用非参数检验的方法予以解决。
参数检验
对于总体服从正态分布的数据或大样本(n>30)数据进行假设检验时,采用参数检验。
一个总体
一个总体均值和比例两个总体
两个正态总体分布检验
当面对总体分布情况未知,样本容量又小的情况时,意味着无法运用中心极限定理进行参数检验,推断总体的集中趋势和离散程度,此时应当采用非参数检验,非参数检验对总体分布不做假设,直接从样本的分析入手推断总体的分布,通过对比样本的频数与期望频数 (目标分布的频数) 的差距来判断抽取样本的总体分布是否为目标分布。
根据检验的目的,分布检验主要分为:检验样本分布形态、分布形态差异显著性检验以及低测度数据的差异显著性检验。检验高测度数据的分布形态是针对高测度数据(定距数据和高测度的定序数据)的单样本的检验,检验数据分布于标准分布的差异,常见的检验技术有K-S检验、二项分布检验、卡方检验和单样本游程检验。分布形态差异显著性检验是针对两个及两个以上高测度数据总体的分布差异的检验,常见的方法有:两独立样本的差异显著性检验、多独立样本的差异显著性检验、两关联样本的差异显著性检验、多关联样本的差异显著性检验。低测度数据的差异显著性检验是针对低测度数据(定类数据和低测度的定序数据)的分布差异的检验,利用交叉表技术分行分列计算交叉点的频数,利用卡方距离实施卡方检验,基于频数和数据分布形态分析不同类别数据是否存在显著性差异,是对定类数据的比对检验,也称独立性检验。
根据适用的数据总体情况的不同,非参数检验可以分为卡方检验和秩次检验。卡方检验用于分类型数据(定类或定序)的频数分析,而秩次检验用于定序数据集合或不服从正态分布的定距数据集合的分布检验以及差异比较。
卡方检验
卡方检验是一种非参数检验方法,其在分析计数数据时,对计数资料的总体的分布形态不作任何假设,适用于分类型数据的频数(频率)分析。从功能上来说,可以分为拟合优度(一致性)检验、关联性(独立性)检验和构成比(构成比率)检验。
拟合优度检验
拟合优度检验,又称一致性检验,是对单个变量的k类频数的分布是否与理论分布相同的检验。由此可见,拟合优度这个名字所要表达的含义是观察频数拟合期望频数的程度有多好。
关联性检验
关联性检验,又称为独立性检验。它的目的是考察两个分类变量之间是否相关(独立),如果它们之间不相关,那么由两个分类变量组成的列联表,列联表内每个单元格中的频数分布是随机而没有规律的,反之,则是服从一定比率的存在。
构成比检验
构成比检验,又称构成比率检验,考察的是多个总体在某个分类变量的各个水平上,它们的频数分布是否有显著性性差异。
表面上卡方检验的一致性检验方法与独立性检验方法一样,但两种检验方法在实质上还是有差别的。首先,两者检验目的不同。独立性检验是对两个变量是否相关进行的检验;而一致性检验是对总体之间在某一变量分类中是否具相同分布的检验。其次,两者抽样程序不同。独立性检验是从一个总体中抽出一个样本,然后按两个变量的类别进行分类;而一致性检验是从多个总体进行抽样,抽出多个样本,然后按不同样本进行分类。最后,两种方法推断期望频数的理论不同。独立性检验是基于独立事件的假设推出期望频数;而一致性检验是基于不同总体具有相同的概率的假设推出期望频数。
从计算过程来看,关联性检验和构成比率检验的计算过程是完全相同的,差异在于结果的解释侧重点不同。关联性分析的两个分类变量都为表示指标的变量,因此考察的是两个指标变量是否相关;而构成比率检验的两个分类变量,一个是用于群体分类的分组变量,一个为指标分类变量,因此,结果应该解释为不同群体类别在指标变量上的构成比率是否存在差异。
秩次检验
秩次检验是一种用样本秩(样本排序)代替样本值的检验方法,它可以被用于推断样本中位数以及检验样本总体分布。秩次检验是先将数值变量资料由小到大,或等级资料由弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。
单样本
单样本秩次检验是用来确定总体的中位数是否等于某个假设值,又被称为Wilcoxon符号秩检验。这是基于中位数的定义:若总体的中位数等于假定值,则样本中有一半大于该值,而另一半小于该值。检验统计量是建立在差的得分基础之上的,差的得分可通过将每个观测值减去假定的中位数而得。
对于小样本(n<30),Wilcoxon符号秩检验程序如下:1、随机抽取一个样本,对于每个样本观测值,减去零假设给定的中位数,将这些差的得分取绝对值,然后排序,记录下其所在位置作为其秩(顺序),最小的秩为1,最大的秩为n。若两个差得分相同,则取其所在位置的平均(如,两个差的得分排在第四位,则这两个差的得分的秩均为4.5,即4与5的算术平均);2、将差的得分的原始符号(+或-)附在其相应秩的前面,正秩的和记为W+,负秩的为记为W-,若零假设为真,则每个秩应等可能的取+或-,从而绝对值的W+和W-应近似相等;3、算出W+和W-的绝对值以后,需要检验统计量:对比W+和W-绝对值中较小值与Wilcoxon临界值表相应临界值(相应显著水平和样本容量条件下),判断是拒绝原假设还是接受原假设。
两关联样本
相依样本的Wilcoxon符号秩检验,与单样本的Wilcoxon符号秩检验相比,相依样本的Wilcoxon符号秩检验研究成对样本的观测值,成对样本中位数的差。检验步骤与单样本基本一致:即把成对样本的观测值相减,记录差值的符号和绝对值,并基于绝对值升序求秩分,比较两组数据的正值秩分或负值秩分,从而确定其差异性。
符号检验(Sign):纯粹通过符号实施数据检验的一种方法,即对样本的两次测量值直接相减求取符号,然后根据符号情况确定其差异性。由于符号检验仅仅通过正负号进行检验,适合于测度较低的非定距数据,其检验准确度不够高。
两独立样本
Wilcxon W等级和检验(Mann-Whitney U):也叫曼-惠特尼U检验,其基本思路是:把全部样本混在一起求秩,然后根据两组样本的秩分情况判断是否存在差异。曼-惠特尼U检验本质上是一种通过比较两个样本秩分情况而获得差异显著性检验结论的一种检验技术。本算法适应于定距数据和定序数据。
两独立样本的K-S检验(Kolmogorov-Smirnov Z):是基于秩分累积频数的检验方式,即对全体样本混合求取秩分,然后针对秩分的累积频数或累积频率进行差异显著性检验。本算法适应于定距数据和定序数据。如果预先把其中一组数据设置为标准分布形态的数据,那么通过K-S分析待检验序列与标准分布的差异性水平,就能实现针对单样本数据的分布形态的判定。
沃尔德-沃尔福威茨游程检验(Wald-Wolfwitz runs):是基于秩分排列的游程检验。即对全体样本混合求取秩分,并基于两组样本在秩分序列中的位置构造游程。通过分析游程的大小和数量实现游程检验,从而判断两组样本在混合序列中的排列是否为随机的。若两组样本在混合序列中的排列是随机的,则两组样本之间没有显著性差异。
摩西极端反映的差异检验(MosesExtreme reaction):即摩西极端反映的差异显著性检验,即对全体样本混合求秩分,根据两端的极端秩分值确定其差异性。摩西极端反映检验是通过检验极端秩分值来反映的差异情况,来判断两组数据的分布是否存在差异。
多关联样本
肯德尔和谐系数检验(Kendall):是基于肯德尔系数的差异显著性检验技术,是基于秩分的平均等级分析。其基本思路是:先计算K个观测量卡方值和肯德尔和谐系数W,然后判断其观测值的分布是否一致。在肯德尔和谐系数检验中,以肯德尔和谐系数W表示被检验变量的秩分之间的差异程度。协同系数W的取值在0~1,W越接近于1,表示变量的组件差异越大,反之,协同系数W越接近于0,表示变量的组间差异越小。肯德尔和谐系数检验,比较适合于定距变量与定序变量的处理。
双向等级方差分析(FriedMan):是基于K个变量降序秩分的差异显著性检验。这是基于秩分的一种方差分析方法,其基本思路是先对样本的K个检验量进行降序求秩分,然后按照秩分做方差分析。双向等级方差分析,比较适合于针对定距变量和高测度定序变量的数据分析。
多独立样本
K-W平均秩检验(Kruskal-Wailis H):是一种基于平均秩的差异显著性检验。其基本思路是:先把待分析的观测变量序列排序后求取秩分(或者把多个独立样本的数据混合后排序并求取秩分),然后基于各组秩分,进行类似方差分析的计算,分析秩分的均值差异是否显著。它是基于秩分的一种方差分析技术,相当于单因素方差分析的非参数方法,适用于有序分类资料及不宜用参数检验(F检验)的数值变量资料,该法亦称为H检验,包括直接法和频数表法。
淦,人生好难。