有限的数据蕴含无限价值——少量数据的科学决策

2020-07-28 本文已影响0人柒元_

当各组数据多到数百乃至数千以上时，就可以认为“平均值之差服从正态分布”，进而进行z检验。当数据量较少时，统计学中用t检验来判断平均值之差的产生是不是纯属巧合。

小可大用的t检验

t检验是专门为少量数据设计的检验方式，专为大量数据设计的z检验无法用于样本量只有20的情况，但是对于数千条数据却仍可以使用t检验做判断。

在仅有几十个数据的时候，使用t检验可以得出正确的结果，在大量数据的情况下t检验和z检验的结果是一致的。

z检验和t检验的基础理念是共通的，都是要求出“真实值”偏离“假设值”若干个“标准误差”的概率p值是多少。

z检验使用的，在距离分布中心大约±2SE的概率是5%的正态分布。但当样本数据稀少时并不会那么贴近正态分布。

从全体数据上看，对于“样本的均值”和“真实的均值”，“样本数据”一定是更接近“样本均值”，这也就意味着从有限的数据中求出的方差会小于整体方差。

在此，戈塞特和费希尔从数学上整理了“从样本中求出的方差与样本量之间的关系”。利用海尔墨特(Hermert)和卡·皮尔逊(C K．Pearson)推导出的卡方分布，可以根据不同的样本量，分别计算出从样本求出的方差，与真实方差之间的差异，所服从的分布。

若n个相互独立的随机变量X₁、X₂、……、Xn ，均服从标准正态分布，则这n个X的平方和构成一新的随机变量x2，x2分布规律称为卡方分布。

其中相加起来的x2的数量称为自由度。当自由度无限大时，该分布会与正态分布完全一致。

基于卡方分布的性质，根据样本量或者卡方分布自由度的不同，计算“平均值之差”位于“平均值之差的标准误差”多少倍之内的概率是多少的分布，就是t分布。

在应用t检验时，和z检验一样只要计算出“平均值之差”和“平均值之差的标准误差”就可以判断假设的置信区间。根据t分布，由于样本量较小，同样是95%的置信区间，区间范围会比正态分布要大。

10人样本量，95%置信区间是±2.31SE；

20人样本量，95%置信区间是±2.10SE；

30人样本量，95%置信区间是±2.00SE；

200人样本量，95%置信区间是±1.97SE；

500人样本量，95%置信区间是±1.96SE；

这也是数据上千条时，t检验和z检验具有相同功效的原因。

当数据量少到不足10个样本量时，进行z检验用正态分布近似就不合适了。“确切概率”就是确切地利用概率来计算p值。这个发明者就是费尔希（Fisher）了。

我们检验是否参加体育社团与主任升任率的关系。Fisher确切概率检验就是将上述问题视为概率问题来处理：

单侧检验

首先从10人中有5位升任者，通过排列组合共有252种组合方式

数据中可以得到参加过社团的有6人，其中升任主管的有4人；未参加过社团的有4人，其中升任主管的有1人。

接下来考虑5位升任者的252种组合中，有4人参加体育社团（样本数据），或者4人以上参加体育社团（比样本数据还难发生）时有多少种情况。

有4人参加过社团人数为的组合数为15；对应有1人未参加过社团人数为的组合数为4;

出现这一情况的组合数共有15×4=60种，发生概率为60/252=23.8%

有4人以上参加过社团人数只能为5，对应组合数为6；；对应有0人未参加过社团人数为的组合数为1;

出现这一情况的组合数共有6×1=6种，发生概率为6/252=2.38%

以上两种情况相加得到“参加过体育社团的升任率较高的概率“，也就是单侧检验的p值为26.2%。

双侧检验

求双侧检验的p值就要再加上“参加体育社团升任率较低的情况的概率”。

在假设参加体育社团升任率较低的情况下，可以有1人参加过社团，有4人未参加过社团，此时升任率比例为(1/6):(4/4)=1:6；可以有2人参加过社团，有3人未参加过社团，此时升任率比例为(2/6):(3/4)=2:3。

有3人参加过社团，有2人未参加过社团，此时升任率比例为(3/6):(2/4)=1:1，这时开始假设就不成立了；

所以参加体育社团升任率较低的概率

因此，把以上概率全部相加，得到两方有一方偏高的概率是54.2%，这就是双侧检验的p值。意味着大概每2次就可能产生1次这种差距，基于此我们可以认为这组数据的产生是一个偶然。

使用t检验和Fisher确切概率检验，即使数据量少，也能正确的判断平均值或比例之间的差距是偶然的还是显著的。这样我们就能论证某些设想，并通过统计学的方法对其进行解释。