非参数方法

2021-09-02  本文已影响0人  米斯特芳

本文来自《商务与经济统计》第18章的个人笔记。

什么是非参数方法

参数方法:即对数据的参数有一些先验经验,比如数据的分布、均值与方差等,常见的检验一般都会要求正态分布。非参数方法不要求提供这些参数。

非参数方法的区别之处

  1. 无需假定总体概率分布形式
  2. 允许对分类、排序类数据进行推断
  3. 非参数检验一般是针对中位数

符号检验

用于总体中位数的检验、两个匹配总体之差的检验(方法与第一个相同)。

总体中位数的检验

H_0:总体中位数=x
步骤:

  1. 新增一列,如果数据大于x,则设置为+,小于设置为-,等于就剔除掉
  2. 统计正负号的个数
  3. 如果零假设成立,则总体中应该各有50%的正负号
  4. 问题转化为H_0:p=0.5,p表示加号的概率,这是一个二项分布,当样本数大于20时,近似正态分布
  5. 对于二项分布,计算加号数\ge统计的加号数的概率(如果统计的加号大于一半)或加号数\leq统计的加号数的概率(如果统计的加号小于一半),此概率即为p值。对于正态分布,由于均值为0.5n,标准差为\sqrt {0.25n},同理求p值。对于双侧检验,结果乘以2。这一步的原理是对统计加号数求远离一半加号方向的概率,表示反常的情况。
  6. 求p值的时候注意使用连续性修正,比如加号个数为8个,求下侧面积,则应该用(7.5,8.5)区间的概率来求加号为8个的概率。

威尔科克森符号秩检验

用于分析匹配样本数据,同样检验中位数。使用数据量数据,假定配对观测值之差具有对称分布(即2个总体的形态相同,比正态分布宽松)。 由于假定是对称分布,中位数检验也是均值检验。
H_0:配对总体的中位数之差为0
步骤:

  1. 新增2列,一列为总体A-总体B的差。一列为差的绝对值。
  2. 根据差的绝对值排序。首先剔除差为0的样本。对绝对值从小到大排序(序号从1开始),如果差值相同,则用平均数代替(比如第3,4个差值相同,则序号都为3.5,序号也称为秩)
  3. 取差值为正(新增的第一列)的样本,求其秩的总和,此即为符号秩检验的统计量T^+
  4. 如果2总体中位数相等且匹配数据对个数\ge10,则T^+的抽样分布近似正态分布:均值=n(n+1)/4,标准差=\sqrt{n(n+1)(2n+1)/24}
  5. 下面就转到正常的参数统计方法:求统计量T^+在给定正态分布下远离零假设条件的概率,即为p值(双侧检验需要乘以2)。同样注意连续性修正(比如统计量为11.5,分布的均值为10,则应该求t\ge11的概率,11.5用区间11-12表示)

MWW检验(曼-惠特尼-威尔科克森检验)

检验2个独立样本的2总体差异。 当2个总体具有相同的形态时,MWW检验变为2个总体的中位数之差的检验。
H_0:2个总体相同
步骤:

  1. 合并2个样本,排序
  2. 如果2个总体相同,总体A的秩和应该接近2个极端值的平均值(比如样本1和样本2的样本数为4,5,则样本1最小秩和为1+2+3+4=10,最大秩和为6+7+8+9=30,平均值为20)
  3. 其中一个总体的秩和W作为统计量,当2个样本数都\ge7时,W近似服从正态分布:均值=n_1(n_1+n_2+1)/2,标准差=\sqrt{n_1 n_2 (n_1+n_2+1)/12}
  4. 下面也转为常规参数方法,略。

克鲁斯卡尔-沃利斯检验

检验多个总体。可以是顺序型或数量型数据。总是一个上侧检验
H_0:所有总体相同。
步骤:

  1. 合并多个样本,排序,计算各样本的秩和
  2. 统计量H=[\frac {12}{n_T (n_T+1)}\sum_{i=1}^k \frac{R_i^2}{n_i}]-3(n_T+1),其中k为总体个数,n_i代表样本i的观测值数目,n_T为所有样本的观测值数目,R_i为样本i的秩和
  3. 在零假设下,H的抽样分布近似服从自由度为k-1的卡方分布(每个样本容量\ge5)

秩相关系数

皮尔逊相关系数是线性关系的度量。对于排序数据,使用秩相关系数。
r_s=1-\frac{6\sum_{i=1}^n d_i^2}{n(n^2+1)}其中n为样本值观测值个数,x_i为第一个变量的第i观测值的秩,y_i为第二个变量的第i观测值的秩,d_i=x_i-y_i
在总体的秩相关系数为0的零假设下,r_s的抽样分布近似正态分布:均值u_{r_s}=0,标准差\sigma_{r_s}=\sqrt{1/(n-1)},n\ge 10
构造统计量z=\frac{r_s-u_{r_s}}{\sigma_{r_s}},z服从标准正态分布,利用z统计量计算p值,即可进行秩相关系数显著性检验

上一篇 下一篇

猜你喜欢

热点阅读