有限的数据蕴含无限价值——少量数据的科学决策
当各组数据多到数百乃至数千以上时,就可以认为“平均值之差服从正态分布”,进而进行z检验。当数据量较少时,统计学中用t检验来判断平均值之差的产生是不是纯属巧合。
小可大用的t检验
t检验是专门为少量数据设计的检验方式,专为大量数据设计的z检验无法用于样本量只有20的情况,但是对于数千条数据却仍可以使用t检验做判断。
在仅有几十个数据的时候,使用t检验可以得出正确的结果,在大量数据的情况下t检验和z检验的结果是一致的。
为少量数据设计的t检验
z检验和t检验的基础理念是共通的,都是要求出“真实值”偏离“假设值”若干个“标准误差”的概率p值是多少。
z检验使用的,在距离分布中心大约±2SE的概率是5%的正态分布。但当样本数据稀少时并不会那么贴近正态分布。
从全体数据上看,对于“样本的均值”和“真实的均值”,“样本数据”一定是更接近“样本均值”,这也就意味着从有限的数据中求出的方差会小于整体方差。
在此,戈塞特和费希尔从数学上整理了“从样本中求出的方差与样本量之间的关系”。利用海尔墨特(Hermert)和卡·皮尔逊(C K.Pearson)推导出的卡方分布,可以根据不同的样本量,分别计算出从样本求出的方差,与真实方差之间的差异,所服从的分布。
若n个相互独立的随机变量X₁、X₂、……、Xn ,均服从标准正态分布,则这n个X的平方和构成一新的随机变量x2,x2分布规律称为卡方分布。
其中相加起来的x2的数量称为自由度。当自由度无限大时,该分布会与正态分布完全一致。
基于卡方分布的性质,根据样本量或者卡方分布自由度的不同,计算“平均值之差”位于“平均值之差的标准误差”多少倍之内的概率是多少的分布,就是t分布。
在应用t检验时,和z检验一样只要计算出“平均值之差”和“平均值之差的标准误差”就可以判断假设的置信区间。根据t分布,由于样本量较小,同样是95%的置信区间,区间范围会比正态分布要大。
10人样本量,95%置信区间是±2.31SE;
20人样本量,95%置信区间是±2.10SE;
30人样本量,95%置信区间是±2.00SE;
200人样本量,95%置信区间是±1.97SE;
500人样本量,95%置信区间是±1.96SE;
这也是数据上千条时,t检验和z检验具有相同功效的原因。
用于稀少数据的“费尔希确切概率检验”
当数据量少到不足10个样本量时,进行z检验用正态分布近似就不合适了。“确切概率”就是确切地利用概率来计算p值。这个发明者就是费尔希(Fisher)了。
我们检验是否参加体育社团与主任升任率的关系。Fisher确切概率检验就是将上述问题视为概率问题来处理:
单侧检验
首先从10人中有5位升任者,通过排列组合共有252种组合方式
数据中可以得到参加过社团的有6人,其中升任主管的有4人;未参加过社团的有4人,其中升任主管的有1人。
接下来考虑5位升任者的252种组合中,有4人参加体育社团(样本数据),或者4人以上参加体育社团(比样本数据还难发生)时有多少种情况。
有4人参加过社团人数为的组合数为15;对应有1人未参加过社团人数为的组合数为4;
出现这一情况的组合数共有15×4=60种,发生概率为60/252=23.8%
有4人以上参加过社团人数只能为5,对应组合数为6;;对应有0人未参加过社团人数为的组合数为1;
出现这一情况的组合数共有6×1=6种,发生概率为6/252=2.38%
以上两种情况相加得到“参加过体育社团的升任率较高的概率“,也就是单侧检验的p值为26.2%。
双侧检验
求双侧检验的p值就要再加上“参加体育社团升任率较低的情况的概率”。
在假设参加体育社团升任率较低的情况下,可以有1人参加过社团,有4人未参加过社团,此时升任率比例为(1/6):(4/4)=1:6;可以有2人参加过社团,有3人未参加过社团,此时升任率比例为(2/6):(3/4)=2:3。
有3人参加过社团,有2人未参加过社团,此时升任率比例为(3/6):(2/4)=1:1,这时开始假设就不成立了;
所以参加体育社团升任率较低的概率
因此,把以上概率全部相加,得到两方有一方偏高的概率是54.2%,这就是双侧检验的p值。意味着大概每2次就可能产生1次这种差距,基于此我们可以认为这组数据的产生是一个偶然。
关于商务分析的应用
使用t检验和Fisher确切概率检验,即使数据量少,也能正确的判断平均值或比例之间的差距是偶然的还是显著的。这样我们就能论证某些设想,并通过统计学的方法对其进行解释。