机器学习-算法理论

从chi-square到F-test,T-test

2021-04-01  本文已影响0人  shudaxu

\chi ^2 分布

定义 \chi ^2_k=\sum_i^k x_i其中x_i \sim N(0,1)

形状,随着自由度提升,越来越接近正太分布。
Chi Square distributions are positively skewed, with the degree of skew decreasing with increasing degrees of freedom. As the degrees of freedom increases, the Chi Square distribution approaches a normal distribution.

推论1 :chi-square其泛化形式为\chi ^2= \sum_i^N \frac {(O_i-E_i)^2}{E_i}

检验1 Observation 与 Expectation 的一致性

构造\sum_i^N \frac {(O_i-E_i)^2}{E_i},如果Observation 服从 Expectation 的分布,则该统计量服从\chi_N ^2的分布

F分布

定义F_{m,n}=\frac {\chi^2_{m}/m}{\chi^2_{n}/n}

推论2:sample variance is proportional to a chi-squared distribution

S^2=\frac {\sum_i^n (X_i-u)^2}{n}
nS^2/\sigma^2 = \sum_i^n {(\frac {X_i-u}{\sigma})^2}
由于\frac {X_i-u}{\sigma} \sim N(0,1)
所以nS^2/\sigma^2 \sim \chi^2_{n},当\sigma不变时,nS^2 \propto \chi^2_{n}
https://stats.stackexchange.com/questions/121662/why-is-the-sampling-distribution-of-variance-a-chi-squared-distribution

检验2 两总体的方差一致性

由上述推论2,我们可以用两样本的sample variance构造F statistics
得到:F_{n_1,n_2}=\frac {\frac {n_1 S_1^2/ \sigma_1^2} {n_1} } {\frac {n_2 S_2^2/ \sigma_2^2} {n_2}}=\frac {S_1^2/ \sigma_1^2}{S_2^2/ \sigma_2^2}
所以当\sigma_1=\sigma_2时,两组方差的分布符合F统计量。
\frac {S_1^2}{S_2^2} ~ F(v_1=n_1,v_2= n_2)

t分布

假设X \sim N(u, \sigma^2)
对于变量:\frac {\overline X - u}{\sigma / \sqrt n} \sim N(0,1) 【服从标准正太分布】
对于变量:\frac {\overline X - u}{S / \sqrt n} \sim t(v=n-1)【服从n-1度的t分布】

检验3 均值差异

在最简单的形式中,Anova(F-test)可以用以比较量2个或多个变量的均值,以此 generalize T-test。当在比较2组的时候,他们是等价的F=t^2
我们拿个简单的例子,比较X_1X_2在均值上是否存在差异(均值差异来自变量自身的variance还是组间差别):

当两sample来自同一分布时,以下统计量服从T分布。
T=\frac {\overline x_1 - \overline x_2}{\sqrt \frac {S_1^2+S_2^2}{n}}
F=\frac {n \frac {(\overline x_1 - \overline x_2)^2} {2}} {\frac {S_1^2+S_2^2}{2}}=\frac {(\overline x_1 - \overline x_2)^2}{\frac {S_1^2+S_2^2}{n}}=T^2
PS:这里为了做简单的推导,所以将样本量都设为n,其实将n_1,n_2带入也是等价的。
Refer: https://www.jianshu.com/p/0daa59e481e3

关联

其实,F检验是T检验的一种泛化
Chi-square,F,T,几种分布,都与Gaussian Distribution有紧密的关联。很多问题都可以用不同的方法来检验。

上一篇下一篇

猜你喜欢

热点阅读