有限的数据蕴含无限价值——少量数据的科学决策

2020-07-28  本文已影响0人  柒元_

当各组数据多到数百乃至数千以上时,就可以认为“平均值之差服从正态分布”,进而进行z检验。当数据量较少时,统计学中用t检验来判断平均值之差的产生是不是纯属巧合。

小可大用的t检验

t检验是专门为少量数据设计的检验方式,专为大量数据设计的z检验无法用于样本量只有20的情况,但是对于数千条数据却仍可以使用t检验做判断。

在仅有几十个数据的时候,使用t检验可以得出正确的结果,在大量数据的情况下t检验和z检验的结果是一致的。

为少量数据设计的t检验

z检验和t检验的基础理念是共通的,都是要求出“真实值”偏离“假设值”若干个“标准误差”的概率p值是多少。

z检验使用的,在距离分布中心大约±2SE的概率是5%的正态分布。但当样本数据稀少时并不会那么贴近正态分布。

从全体数据上看,对于“样本的均值”和“真实的均值”,“样本数据”一定是更接近“样本均值”,这也就意味着从有限的数据中求出的方差会小于整体方差。

在此,戈塞特和费希尔从数学上整理了“从样本中求出的方差与样本量之间的关系”。利用海尔墨特(Hermert)和卡·皮尔逊(C K.Pearson)推导出的卡方分布,可以根据不同的样本量,分别计算出从样本求出的方差,与真实方差之间的差异,所服从的分布。

若n个相互独立的随机变量X₁、X₂、……、Xn ,均服从标准正态分布,则这n个X的平方和构成一新的随机变量x2,x2分布规律称为卡方分布。

其中相加起来的x2的数量称为自由度。当自由度无限大时,该分布会与正态分布完全一致。

基于卡方分布的性质,根据样本量或者卡方分布自由度的不同,计算“平均值之差”位于“平均值之差的标准误差”多少倍之内的概率是多少的分布,就是t分布。

在应用t检验时,和z检验一样只要计算出“平均值之差”和“平均值之差的标准误差”就可以判断假设的置信区间。根据t分布,由于样本量较小,同样是95%的置信区间,区间范围会比正态分布要大。

10人样本量,95%置信区间是±2.31SE;

20人样本量,95%置信区间是±2.10SE;

30人样本量,95%置信区间是±2.00SE;

200人样本量,95%置信区间是±1.97SE;

500人样本量,95%置信区间是±1.96SE;

这也是数据上千条时,t检验和z检验具有相同功效的原因。

用于稀少数据的“费尔希确切概率检验”

当数据量少到不足10个样本量时,进行z检验用正态分布近似就不合适了。“确切概率”就是确切地利用概率来计算p值。这个发明者就是费尔希(Fisher)了。

我们检验是否参加体育社团与主任升任率的关系。Fisher确切概率检验就是将上述问题视为概率问题来处理:

单侧检验

首先从10人中有5位升任者,通过排列组合共有252种组合方式

数据中可以得到参加过社团的有6人,其中升任主管的有4人;未参加过社团的有4人,其中升任主管的有1人。

接下来考虑5位升任者的252种组合中,有4人参加体育社团(样本数据),或者4人以上参加体育社团(比样本数据还难发生)时有多少种情况。

有4人参加过社团人数为的组合数为15;对应有1人未参加过社团人数为的组合数为4;

出现这一情况的组合数共有15×4=60种,发生概率为60/252=23.8%

有4人以上参加过社团人数只能为5,对应组合数为6;;对应有0人未参加过社团人数为的组合数为1;

出现这一情况的组合数共有6×1=6种,发生概率为6/252=2.38%

以上两种情况相加得到“参加过体育社团的升任率较高的概率“,也就是单侧检验的p值为26.2%。

双侧检验

求双侧检验的p值就要再加上“参加体育社团升任率较低的情况的概率”。

在假设参加体育社团升任率较低的情况下,可以有1人参加过社团,有4人未参加过社团,此时升任率比例为(1/6):(4/4)=1:6;可以有2人参加过社团,有3人未参加过社团,此时升任率比例为(2/6):(3/4)=2:3。

有3人参加过社团,有2人未参加过社团,此时升任率比例为(3/6):(2/4)=1:1,这时开始假设就不成立了;

所以参加体育社团升任率较低的概率

因此,把以上概率全部相加,得到两方有一方偏高的概率是54.2%,这就是双侧检验的p值。意味着大概每2次就可能产生1次这种差距,基于此我们可以认为这组数据的产生是一个偶然。

关于商务分析的应用

使用t检验和Fisher确切概率检验,即使数据量少,也能正确的判断平均值或比例之间的差距是偶然的还是显著的。这样我们就能论证某些设想,并通过统计学的方法对其进行解释。

上一篇下一篇

猜你喜欢

热点阅读