25高通量测序-线性模拟之t检验与单因素方差分析
线性模拟之t检验与单因素方差分析
t-test
快速回顾线性回归,我们测量了老鼠的重量和大小,我们想从中学到两件事:
-
老鼠体重对预测老鼠大小有多大作用?(R平方告诉我们)
-
这段关系是偶然的吗?(p值告诉了我们)
下面我们看看能否将这些概念应用到t检验中。t检验( t-test)的目的是比较均值,看它们是否显著不同。如果同样的方法可以计算线性回归和t检验的p值,那么我们可以很容易地计算更复杂的情况下的p值。
第一步:忽略x轴,求总体均值
第二步:计算SS(mean),离均值平方和
image-20210108162033596.png第三步:对数据拟合直线
-
线性回归使用最小二乘法拟合数据
-
t检验对两组数据分别拟合一条直线,结果两条直线=各组的平均值:y=2.2和y=2.6。
但是,有一种方法可以将这两条线合并成一个方程。这看起来很奇怪,但请耐心听我说。记住,我们的目标是为计算机提供一种灵活的方法来解决这个问题,以及所有其他基于“最小二乘”的问题,而不必每次都创建一个全新的方法。
这是这一点的方程(合并两条直线),1乘以control数据的均值,0乘以mutant数据的均值,最后一部分为残差,是的,这很奇怪,尤其是把突变体的平均值乘以0,但请耐心听我说。如果我们把它们相乘,这一点的方程会是:y =2.2 +残差
image-20210108171903307.pngcontrol组剩下的点和Mutant组中的点表见下图:
image-20210108172535384.png 我们发现0和1像一个开关,当为0时,关上均值,当为1时打开均值。当我们将1和0分离时,它们形成了一个称为“设计矩阵”(design matrix)的矩阵。设计矩阵可以与等式相结合,以表示对数据的拟合。第一列表示control 均值开或关,第二列表示mutant均值开或关。在实践中,假设每一列的作用,方程是这样写的:
image-20210108173200992.png
第四步:计算拟合线,残差平方和(SS(fit))
image-20210108163003851.pngimage-20210108163021235.png
第五步:计算F值,t-test的p(mean)=1,p(fit)=2
image-20210108163216756.png第六步:计算t-testp值
image-20210108163340772.png单因素分析
第一步:忽略x轴,求总体均值
第二步:计算SS(mean),离均值平方和
image-20210108163551379.png第三步:对数据拟合直线
第四步:计算拟合线,残差平方和(SS(fit))
image-20210108163648390.png第五步:计算F值,t-test的p(mean)=1,p(fit)=5
第六步:计算p值
在我们结束之前最后一个重要的细节
我向你们展示的设计矩阵并不是用于进行t检验和方差分析的标准设计矩阵。左边的设计矩阵是我们在statQuest中用于t-test。我们将在下一个StatQuest中讨论这个和其他更复杂的设计。
image-20210108164040643.png