T-test——T检验
前面几节内容,我们了解了在回归分析中,如何判断变量之间的相关性——计算R2,如何判断相关的真实性——计算F值和P值。
详情可查看回归概述、线性回归和多元回归
其实回归分析的计算理念,完全可以直接套用在T-test和ANOVA中。
T-test
假设,现在有两组小鼠,正常组和突变组,它们的某一个基因表达如下图所示。

第一步,将所有数据的混合在一起,计算基因表达(y轴)的均值

第二步,分别计算每一个点和均值之间的残差平方和SS(mean)

第三步,分别计算每个分组内部的基因表达均值

这一步其实相当于一元线性回归过程中的直线拟合步骤,只是我们分别适用每个分组自己的均值作为各自的拟合直线
[图片上传失败...(image-655329-1563423158766)]
但是问题来了,如何将这两条直线整合为一个公式?
假设Control组的均值为2.2,Mutant组的均值为3.6,
对于Control组而言,整合公式为

对于Mutant组而言,整合公式为

其中residual为数据点到组内均值的残差。
将所有数据点的表达式意义罗列出来,可以发现整合公式是通过1和0在控制Control组和Case组数据的有效性。

将0和1剥离出来,组成一个矩阵,我们称之为“设计矩阵(design matrix)”。
在本文这个案例中,矩阵第一列控制Control组的开和关,第二列控制Mutant组的开和关。
我们这里展示的并不是完全标准的design matrix,实际上,矩阵中的每一列都是可以根据需要来进行调整的。
本文案例的设计矩阵方程式可以简写为y=meancontrol+meanmutant。
关于设计矩阵的详细情况,下一节会有详细介绍。
第四步,计算SS(mean)和SS(fit)

然后计算F值,获得相应的P值

对于T-test而言,自由度pmean=1, pfit=2(方程式y=meancontrol+meanmutant中有两个参数)
ANOVA
ANOVA的计算过程和T-test大同小异
首先计算SS(mean)

然后计算SS(fit)

最后根据F值获取相应P值