26高通量测序-设计矩阵
设计矩阵
在第2部分中,我们最后说左边不是t检验的标准设计矩阵。右边是t-test的标准设计矩阵,它对应的是一个稍微不同的方程。
image-20210108164755189.png 让我们专注于这个新的设计矩阵和公式是关于什么的!在这个矩阵中,第1列所有的数据(control和mutant)都变成了(mean(control)),但只有mutant的值变成difference(mutant - control)。举个例子:第一行中的1表示“开”control的均值,第一行中的0表示“关”mutant-control的差。
image-20210108173544739.png两个方程的残差是相同的。方程也有相同数量的参数,2,所以p(fit)是相同的,所以F值相同,所以p值也相同。如果它们做同样的事得到同样的p值,为什么右边的更常见?说实话,我不知道确切的答案,但我认为这与回归有关
image-20210108173824952.png 到目前为止,我们已经在使用1和0的背景下研究了设计矩阵,等式“开”或“关”。让我们退后一步,记住它是如何工作的。第一列中的数字乘以control的均值,第一列中的数字乘以mutant-control的差。第一行中的1表示“开”control的均值,第一行中的0表示“关”mutant-control的差。当我们有不同类别的数据时,一个满是1和0的设计矩阵非常适合做t检验或方差分析——但我们可以使用其他数字。
例如,这是一个线性回归的设计矩阵,第一列有一堆1,在第二列,我们得到了每个点的x轴位置。我们现在看第一行,它对应着图中的点。就像之前一样,第一列的数乘以公式的第一项。在本例中,将y-intercept乘以1将其‘打开’。就像之前一样,第二列的数乘以公式的第二项。在这种情况下,我们对斜率(slope)进行缩放(*0.9)。
image-20210109104851310.png为了让它更具体,我们来看看用实数表示y轴截距和斜率会发生什么。y-intercept=0.01,slope=0.08。y=10.01+0.90.8=0.73,.然后在最小二乘拟合线上得到一个点对应于第一个数据点。
image-20210109105255893.png 重复以上步骤,得到所有数据点在拟合曲线上的对应点,我们可以计算残差和p值。这个例子表明,设计矩阵并不总是一串0和1,而是可以是我们想要代入方程的任意一组数字,每次一行。因为这种风格的设计矩阵(第一列都是1)更常见,所以这里的所有例子都将遵循这种格式。
image-20210109105642819.png 我们回到了老鼠体重和老鼠大小之间的关系。然而,现在我们有两种老鼠,红色测量数据来自正常的对照小鼠,绿色测量数据来自突变小鼠。我们可以看到突变小鼠往往更大,即使它们的重量相同。换句话说,突变小鼠似乎遵循了绿色虚线趋势,而对照组的老鼠似乎也遵循了红色虚线趋势。
image-20210109110131734.png 我们可以用统计学来检验两种类型的小鼠之间是否有显著的差异吗?如果我们做一个回归,我们会得到一条好看的线,但它不会告诉我们突变小鼠是否明显大于正常小鼠。
image-20210109110236406.png 另一方面,一个正常的t检验会忽略体重和大小之间的关系,只对老鼠的大小进行统计,p值>0.05,两组老鼠的大小并没有差异。
image-20210109110902950.png 由于小鼠的体重(weight)和大小(size)之间的这个关系与小鼠的类型有关,所以我们需要将它们结合到单个test中,换句话说,我们不是比较老鼠大小的平均值,我们要去比较两条线之间的关系。为了做到这一点,我们需要一个方程,其中包含正常小鼠的y轴截距项,一项表示i突变的小鼠与对照小鼠的差值,最后一项关于斜率(在这个例子中,这对两种老鼠斜率相同)。这意味着我们需要一个第一列为1的设计矩阵,这意味着两条直线与y轴相交于某一点。第二列表示差值是开启还是关闭,control mouse的mutant offset为“off”,mutant mouse的mutant offset为”on"。第三列是体重数据。让我们看设计矩阵的第一行,代入数字,的到红线上的点。
image-20210109112149512.png 代入设计矩阵中的所有数据,我们有了直线上的位置,我们就可以计算残差。现在我们把这个左边复杂的模型叫做“fancy model”与右边简单的模型“simple model”进行比较。代入这个复杂模型的残差平方和进入F值计算的公式,此时p(fancy)=3,代入简单模型的残差平方和,p(simple)=1,F=21.88,p值=0.003。
image-20210109113650256.png 上面的简单模型只考虑了大小,现在我们即考虑大小有考虑体重,但是忽略老鼠的种类。然后我们计算残差,代入计算F=32.6,p值0.0023。这个小的p值表明,同时使用体重和老鼠种类比单独使用体重能更好地预测老鼠的大小。
image-20210109113601299.png这是一个简单的模型,忽略了老鼠体重。计算残差,计算F=31.06,p值=0.0025,这个小的p值表明,同时使用体重和老鼠种类比单独使用种类能更好地预测老鼠的大小。
image-20210109114600937.png批次效应(batch effect)
Lab A为一个实验,Lab B重复它,但是测量结果全部变小了。我们希望结合这两个数据集,看看突变体是否与控制组不同,但我们需要进行消除“批次效应”
首先,第一项为Lab A Control的平均值,第二项为Lab B Control与Lab A Control的平均值的差值,第三项为mutant和control数据的差值。得出设计矩阵,本质上,我们想知道方程的最后一项是否重要?或者,最后一列重要吗?
image-20210109115717060.png 现在我们比较这个复杂方程(fancy equation)与简单方程(simpler equation,简单方程忽略了control与mutant的分组)的区别,一个小的p值将告诉我们,保留control与mutant的分组的方程比不保留control与mutant的分组方程更好地预测基因表达。这将意味着control与mutant之间的差异是显著的。
image-20210109120058568.png