25高通量测序-线性模拟之t检验与单因素方差分析

2021-01-22 本文已影响0人不到7不改名

线性模拟之t检验与单因素方差分析

t-test

快速回顾线性回归，我们测量了老鼠的重量和大小，我们想从中学到两件事:

老鼠体重对预测老鼠大小有多大作用?(R平方告诉我们)
这段关系是偶然的吗?(p值告诉了我们)

image-20210108152401316.png

下面我们看看能否将这些概念应用到t检验中。t检验( t-test)的目的是比较均值，看它们是否显著不同。如果同样的方法可以计算线性回归和t检验的p值，那么我们可以很容易地计算更复杂的情况下的p值。

第一步：忽略x轴，求总体均值

第二步:计算SS(mean)，离均值平方和

image-20210108162033596.png

第三步：对数据拟合直线

线性回归使用最小二乘法拟合数据
t检验对两组数据分别拟合一条直线，结果两条直线=各组的平均值：y=2.2和y=2.6。

但是，有一种方法可以将这两条线合并成一个方程。这看起来很奇怪，但请耐心听我说。记住，我们的目标是为计算机提供一种灵活的方法来解决这个问题，以及所有其他基于“最小二乘”的问题，而不必每次都创建一个全新的方法。

这是这一点的方程(合并两条直线)，1乘以control数据的均值,0乘以mutant数据的均值,最后一部分为残差，是的，这很奇怪，尤其是把突变体的平均值乘以0，但请耐心听我说。如果我们把它们相乘，这一点的方程会是：y =2.2 +残差

image-20210108171903307.png

control组剩下的点和Mutant组中的点表见下图：

image-20210108172535384.png

我们发现0和1像一个开关，当为0时，关上均值，当为1时打开均值。当我们将1和0分离时，它们形成了一个称为“设计矩阵”(design matrix)的矩阵。设计矩阵可以与等式相结合，以表示对数据的拟合。第一列表示control 均值开或关，第二列表示mutant均值开或关。在实践中，假设每一列的作用，方程是这样写的: