假设检验：非参数检验（卡方检验），参数检验（F检验，T检验，Z检

2019-12-16 本文已影响0人 shudaxu

首先讲置信度与置信区间：
放在一起理解就行：即在置信度alpha的概率下，我们的参数落在置信区间beta内。
例如：在置信度95%的情况下，扔均匀硬币100次正面的次数在40～60之间。
这个例子中，我们知道扔硬币这个实验符合二项分布，我们通过其分布就能算出在95%的概率内，值域的分布。

** 非参数检验（卡方检验），参数检验（F检验，T检验，Z检验），方差分析（ANOVA）

非参数检验与参数检验：

** 主要差异在于，非参数检验不需要假定总体分布形式，直接对数据的分布进行检验。由于不涉及总体分布的参数，故名「非参数」检验。比如，卡方检验。
而参数检验一般需要正太性，方差齐次等假设，并已知总体均值，方差等值，或者从样本估计**

卡方校验：（要求independent variables是离散变量）

主要检验自变量与因变量的相关程度。（做变量区间划分，然后频次统计，跟相关性系数有所差异【Pearson系数为研究连续值变量之间的线性相关性】）
前提：　　卡方分布本身是连续型分布，但是在分类资料的统计分析中，显然频数只能以整数形式出现，因此计算出的统计量是非连续的。只有当样本量比较充足时，才可以忽略两者间的差异，否则将可能导致较大的偏差具体而言，一般认为对于卡方检验中的每一个单元格，要求其最小期望频数均大于1，且至少有4／5的单元格期望频数大于5，此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求，可以采用确切概率法进行概率的计算。

卡方统计量 $X^2=\frac {(Observation - Expected)^2}{Expected}$

其中Observation为实际值，Expected为理论值。（根据Observation，通过统计概率直接计算出Expected理论值）
$X^2$ 用于衡量实际值与理论值的差异程度（也就是卡方检验的核心思想），包含了以下两个信息：

实际值与理论值偏差的绝对大小（由于平方的存在，差异是被放大的）
差异程度与理论值的相对大小

卡方检验是一种非参检验
https://segmentfault.com/a/1190000003719712
引申1：文本分类，CHI，TF*IDF的差异。（卡方校验用于判断词在分类上是否存在区分度，TFIDF主要是判断词在某文档上是否有区分度，因为卡方有”低频词缺陷”，不能表征词在文档内的重要程度，因此，tf-idf是个不错的补充。）
https://www.zhihu.com/question/44596828
引申2：皮尔逊系数，用以检验两个随机变量的线性相关性。（多变量，协方差矩阵）

F检验：(方差齐性检验）

检测两个及以上的样本总体方差差异是否显著的检验。（对正太性敏感，需要前提为正太分布）
*F检验是一种参数检验。

基础
H0假设：两个样本的variance没有差异（齐次） $\sigma_1=\sigma_2$
H1对立假设：两个样本的variance有差异 $\sigma_1>\sigma_2$
统计量 $F=\frac {\sigma_1}{\sigma_2}$ 服从 $d_1=n_1-1,d_2=n_2-1$ 的F分布

F-Test in ANOVA（方差分析）：

分析多组均值是否存在显著差异【注意，在ANOVA中，Ftest也是用来检验均值的差异，在group=2时，两者存在等价关系 $F=t^2$ [4]】
One-way Anova用于one continuous respond，以及一个多取值的dependent variables。
Two-way Anova用于one continuous respond，以及多个多取值的dependent variables。
https://zhuanlan.zhihu.com/p/57896471
前提：方差齐次，正太敏感
H0假设：多个样本均值没有差异（全部相等）
H1假设：任意样本有差异

ANOVA也使用F分布（与F检验相同）

核心思路：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。假设不同组样本的数据的差异主要来自两个方面：1、实验因素差异。2、随机误差。这两个偏差值的比值构成了一个分布，通过我们对这个分布的了解来确定其显著性。
intuition：
(1) 实验条件，即不同的处理造成的差异，称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示，记作SSb，组间自由度dfb。
(2) [随机误差]，如测量误差造成的差异或个体间的差异，称为组内差异，用变量在各组的均值与该组内变量值之偏差平方和的总和表示，记作SSw，组内[自由度]dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m，组间dfb=m-1，其中n为样本总数，m为组数)，得到其均方MSw和MSb，一种情况是处理没有作用，即各组样本均来自同一[总体]，MSb/MSw≈1。另一种情况是处理确实有作用，组间均方是由于误差与不同处理共同导致的结果，即各样本来自不同总体。那么，MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较，推断各样本是否来自相同的[总体]

ANOVA与Linear Model在使用相同的encoding时，是等价的。[1]
形式化解释：
$F=\frac {explained \ variance }{unexplained \ variance }$
or
$F=\frac {between \ group \ variability }{within \ group \ variability }$
之所以组间方差为explained variance，即“分组变量”解释了差异。而组内方差并没有被“分组变量”解释，所以是unexplained。
F-test is a ratio of two Chi-squares：两个卡方统计量的比值。

分子计算：组间方差：
$\sum_{i}^K \frac {n_i(\overline Y_i - \overline Y)^2} {K-1}$
分母计算：组内方差：
$\sum_{i}^K\sum_{j}^{n_i} \frac {(Y_{ij}-\overline Y_i)^2}{N-K}$
$\overline Y_i$ 是第 $i$ 个group的均值， $\overline Y$ 为总样本均值， $K$ 为组数， $n_i$ 为 $i$ 组的样本量

最后计算出F值之后，查临界值表（这个统计量服从 $d_1=K-1$ , $d_2=N-K$ 的F分布，F值越大，说明组间方差比组内方差大的越多。则说明组间均值存在差异。

T检验：

主要用于小样本（样本容量小于30）的两个平均值差异程度的检验方法（主要适用与总体方差未知的情况：即要用小样本的方差预估总体方差）
*T检验也是一种参数检验。（对方差齐性敏感，需要先检验方差齐性【F检验】）
对于与总体配对的T检验，要求方差齐次，只有方差齐了，才能反应其均值的差异。【不齐次有特殊处理方法】
适用于已知总体均值（单样本配对时需要总体均值，双样本不需要），样本均值，样本方差（即样本少总体方差未知），且大致来自于正太分布（一般除非明显的长尾多峰等分布以外，都大致可以检验）

基础：
H0假设： $u$ 与 $u_0$ 没有差异， $u_0$ 其实就是一个comparison value， $u=u_0$
H1假设（单边）：样本A均值大于B（或者小于） $u>u_0$
H1假设（双边）：两个样本均值有差异 $u>u_0$ or $u<u_0$
使用单边双边检验的区别：看你拒绝假设在两边，or一边
均值检验中统计量 $T=\frac {u - u_0}{\sigma}$ 服从 $d=n-1$ 的T分布。 $n$ 为样本量
泛化形式 $T=\frac {E(x)-E(x_0)}{S(x)}$ ，其中 $E(x_0)$ 为H0假设的对比值（comparison value）， $S(x)$ 为对应变量 $x$ 的标准差（一般总体参数未知）所以都是用样本标准差 $S$ ，当我们对比的是均值时，均值的标准差用 $\frac {S(x)} {\sqrt n}$ 来近似
单总体样本：
H0:样本均值与总体均值相同
$t=\frac{\overline X - u}{ \frac {s_x}{\sqrt n}}$
$\overline X$ 为样本均值， $u$ 为总体均值， $s_x$ 为样本标准差， $\frac {s_x} {\sqrt{n}}$ 为样本均值的标准差
双总体配对样本：（形式与上述一致）
$t=\frac{\overline X - u_0}{ \frac {s}{\sqrt n}}$
$u_0$ 为0假设下差异值的均值。 $s$ 为配对样本差值的标准差， $\frac s {\sqrt n}$ 为配对样本差值的均值的标准差

双总体非配对样本：
$t=\frac {\overline X_1 - \overline X_2} {\sqrt {\frac {(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n2_2 - 2} (\frac 1 n_1 + \frac 1 n_2)}}$
注：两个独立样本的差的variance是：
$var(\overline X_1-\overline X_2)=\frac {S_1^2} n_1 + \frac {S_2^2} n_2$
注：实际例子见[14]

这个公式是一个比值。一个普通的比喻是，t值为信噪比。
配对t检验除了自由度有所差异，其实本身也差不多。
上述公式本质分子都是均值，分母都是方差（均值的方差）。所以和z score本质也一样。

1）根据待检验的实验，计算出t值
2）根据t值查表获取p值，借此判断是否有统计学上的差异（不过通常做法是根据想要的p值【比如0.05】来查表获得临界的t值，再比较t值的大小来判断是否达到一定的显著性，t>临界t值，则效果显著）PS：p值代表原假设为真时【比如abtest两组无差异】，此事件发生的概率。【如果很小的话，则证明不太可能发生这样的情况，应该拒绝原假设，当然，拒绝也是有错误的可能性的，错误的概率也为p值，即我们认为abtest有显著差异其误判的概率是p】

Z检验：（统计量的计算形式与t检验一致）

统计量 $z=\frac {u-u_0} {\frac {S_0} {\sqrt n} }$ 服从N(0,1)标准正太分布，查表即可知起临界值。
t分布相较于标准正太分布来说，n越小的时候越平坦，intuition上来说，即是样本越小，需要拒绝H0的临界值越大（样本小，则需要数值上越明显的差异）
Z检验核心思路与t检验类似。由于前提已知整体方差（基本要求样本数量大于30才能用样本方差代替整体方差，实际上样本量越大偏差越小），所以只适用于大样本量的数据。
实际上与t检验的区别就在于，t检验用的t分布查临界值（针对小样本），Z检验直接查标准正太分布表即可

T检验与F检验的差异[2]：

1、本质上T检验用以检验均值差异，F检验方差差异（譬如用于回归模型拟合程度检验：回归模型Fscore[3]），但是在方差分析ANOVA中，对F-test的应用也是检验均值的差异。[4]
2、T检验用于样本量小于30的情况（大于30，可视为population参数已知，用标准正太分布即可，z检验），F检验可以检验大规模数据
3、F statistics可以视为T statistic的泛化[5]

类似用途1：Ttest and Ftest for Regressor

检验线性模型的有效性：
1、对于Ttest是Linear Model的系数是否=0（H0）
2、对于Ftest是模型explained variance是否显著大于unexplained variance
差异：t-test一次只能test一个参数，而F test可以直接评估多个参数[8]。
$T=\frac {E(/beta)} {s.e.(\beta)}$ ，分母为 $\beta$ 的标准差，在OLS中可以用 $s.e.(\beta)=\frac {\sqrt \frac {\sum (y_i-\hat y_i)^2}{n-2}}{\sqrt {\sum (x_i-\overline x)^2}}$ 来估计参数的标准差。
$F=\frac {\frac {SSR-SSU}{p_r-p_u}}{\frac {SSU}{n-p_u}}$ ， $SSR$ 为sum of squares Restricted即限制了factors(independent variables)的模型， $SSU$ 为sum of squares Unrestricted即未限制factors的模型。 $p_r,p_u$ 分别为他们参数的数量。

类似用途2: T-test and Anova（F-test）

在最简单的形式中，Anova（F-test）可以用以比较量2个或多个变量的均值，以此 generalize T-test。当在比较2组的时候，他们是等价的 $F=t^2$
我们拿个简单的例子，比较 $X_1$ 与 $X_2$ 在均值上是否存在差异（均值差异来自变量自身的variance还是组间差别）：
$T=\frac {\overline x_1 - \overline x_2}{\sqrt \frac {S_1^2+S_2^2}{n}}$
$F=\frac {n \frac {(\overline x_1 - \overline x_2)^2} {2}} {\frac {S_1^2+S_2^2}{2}}=\frac {(\overline x_1 - \overline x_2)^2}{\frac {S_1^2+S_2^2}{n}}=T^2$
PS：这里为了做简单的推导，所以将样本量都设为 $n$ ，其实将 $n_1,n_2$ 带入也是等价的。

ANOVA与OLS-LM的关系。

ANOVA其实是 OLS-Linear Regression一种特例（ANOVA只能对离散的factor做分析），所有能从ANOVA作出的推断，都能直接从OLS中得出[9]，他们假设也是一致的，categorical变量解释不同factor之间mean的variance（组间variance），模型不能解释的就是residual（组内variance）。他们俩的和等于所有respond对总样本均值的variance
同时ANCOVA也经常用于[7]

ANCOVA(协方差分析)与ANOVA的差别

ANCOVA=ANOVA+Linear Regression。剔除Covariates带来的影响(erase the variable effects)，关注treatment本身
ANCOVA与Anova的区别在于，Based on LM，加入了一个continuous covariates，其他一样[6]

Multi-factor（factorial） Analysis of Variance。

注：two-way anova也是factorial anova。
譬如我们要分析多个变量（independent variables），对dependent variable的影响程度。此时可以使用Multi-factor Analysis of Variance[10]，或者有种思路是，看哪个factor解释的variance更多？用Ftest来解决：即A factor解释的variance是否显著大于B factor解释的variance。
跳出这个框架，或者对自变量标准化的回归分析[11]，这种方案可以针对任何连续与离散变量。

Multivariate Analysis of Variance（MANOVA）

不是FANOVA[12]

关于p value

一般在做假设检验的时候，我们可以通过如下步骤：
1、设定alpha
2、计算统计量t
3、根据alpha查统计量阈值来确定拒绝还是接受（这里是比较统计量t即可，t>t阈）

第二种方法，直接计算p value（对于不同假设分布有不同计算pvalue的公式）
p value的含义是：

在H0成立的情况下，Data产生的概率
非常好理解，p值为在H0假设下，最终会产生得到当前数据的概率。
如果p < alpha(比如0.05)则在H0的假设下，Data产生概率非常小（小于显著水平alpha），则应该拒绝H0
(注：显著性水平alpha与p值pval不是一回事，不要搞混。alpha为我们设定的显著性水平，pval为计算出来概率。alpha是我们主观去设定的值，pvalue为伴随数据客观得到的值）

关于第一类，第二类错误

第一类错误：H0为真，但是拒绝了H0（弃真）。概率为alpha（常用的显著性水平，即是达到5%概率犯第一类错误的水平【即很大概率不会错误地拒绝H0】）
一般我们计算时，p值就是真实情况下，犯第一类错误的概率。

第二类错误：H0为假，但是接受了H0（取伪）。当我们设定了alpha后，如果显著性水平没有达到alpha的值，那么我们会接受假设H0。在这种情况下，仍然有一定概率H0为假。这个概率为Beta。
$1-\beta$ 即为statistical power

通常，alpha设置的比较大，则beta也会比较大，如下图：

在统计量为蓝色竖线的时候，根据H0假设的分布，可以得到alpha，同时beta由H1的分布计算得来，但是通常我们不知道H1的真实分布，所以也无法精确计算beta

实践中，由于beta无法精确计算，但是我们还是想要降低第二类错误的概率，所以要做有如下的认知，beta的大小取决于两个因素：
1、H1假设与H0的距离，距离越大，beta越小。
2、alpha的值。alpha越大，beta越小。（更倾向于拒绝H0，一类错误概率增加，则二类错误率减少）。
通常在固定alpha，H1假设的情况下，要缩小beta需要增加样本量。

关于置信度，置信区间

置信水平（置信度）=1-显著性水平（alpha）
置信区间：U，V。指在一定的置信水平下(1-alpha)，被观测参数的真实值会落在区间（U，V）之内。
PS：什么是统计量，统计量是样本的函数，且不依赖于任何未知的参数。比如样本均值就是个常用的统计量，mean(sample)，它只依赖于所有样本的值。
PSS：一般来说，主要用于做区间估计。

Refer
[1]:https://stats.stackexchange.com/questions/175246/why-is-anova-equivalent-to-linear-regression#:~:text=ANOVA%20and%20linear%20regression%20are%20equivalent%20when%20the%20two%20models,and%20use%20an%20identical%20encoding.&text=Somewhat%20aphoristically%20one%20can%20describe,simple%20regression%20with%20categorical%20variables.

[2]https://askanydifference.com/difference-between-t-test-and-f-test/

[3]F-score:https://en.wikipedia.org/wiki/Lack-of-fit_sum_of_squares

[4]:ANOVA中F检验也是compare均值，当Anova在只有两组的情况下（对应Ftest中的2个group，Ttest中的配对），F检验与T检验等价： $F=t^2$ 。（F检验本身是比较两个方差，但是Anova中的F检验是比较between group variance，这个值其实是分组的均值的方差，所以本质也是在对比均值，即：组间均值的差异，是否来自于组内方差？）
if you have only two groups/factor levels, the F-test statistic is the square of the t-test statistic, and the F-test is equivalent to the two-sided t-test
https://stats.stackexchange.com/questions/411665/relation-between-f-test-and-t-test-are-they-mutually-exclusive
也可以见上述简化版的等价推导。##T-test and Anova1（F-test）

[5] F statistics 是T statistics的generalization，同理，chi-square statistics也是normal statistics的泛化

[6]:http://www.statsmakemecry.com/smmctheblog/stats-soup-anova-ancova-manova-mancova#:~:text=One%2Dway%20ANOVA%20has%20one,of%20Education%20and%20Zodiac%20Sign)
[7]:http://www.differencebetween.net/science/mathematics-statistics/difference-between-ancova-and-regression/#:~:text=ANCOVA%20is%20a%20model%20that,linear%20to%20the%20independent%20variable.&text=Regression%20is%20the%20relationship%20of,one%20or%20more%20independent%20variables.

[8]t-tests that can assess only one regression coefficient at a time, the F-test can assess multiple coefficients simultaneously

[9]https://snaveenmathew.medium.com/simple-linear-regression-and-anova-c93ae51bdecb
以及
https://stats.stackexchange.com/questions/190984/anova-vs-multiple-linear-regression-why-is-anova-so-commonly-used-in-experiment#:~:text=ANOVA%20and%20OLS%20regression%20are,drawing%20from%20the%20test%20statistic).&text=ANOVA%20cannot%20be%20used%20for,as%20the%20more%20limited%20technique.

[10]https://www.itl.nist.gov/div898/handbook/eda/section3/eda355.htm

[11]:回归分析中，对 variables 做standardization，https://www.researchgate.net/post/In-a-linear-regression-model-how-to-find-the-level-of-influence-of-each-independent-variables-on-the-dependent-variable

[12]https://stats.stackexchange.com/questions/153390/multifactorial-analysis-of-variance-with-repeated-measurements-literature

[13]McNemar's test. 不同于 ttest面向连续变量，这个是面向二分变量的。https://en.wikipedia.org/wiki/McNemar%27s_test

[14] 在特征检验中使用，即某特征划分的样本在指标上是否有差异（均值）：https://blog.csdn.net/weixin_39753674/article/details/110534435