R统计统计

线性混合模型LMM

2017-08-02  本文已影响645人  董八七

线性混合模型基础

线性混合模型(LMM)是遗传评估中必用的统计模型,用以将群体中每个个体的观测值按照潜在影响因素进行分解。决定观测值的大小和幅度受2个参数(均值和方差)控制,反过来说也可以。一般我们更关注方差,围绕方差的运算与处理也更为复杂,所以能够将LMM中涉及的方差们的关系搞明白,就大体能理解这些没什么亲和力的模型们了。通常在介绍这一部分内容时,很容易让人发蒙,因为太抽象了,全是符号,所以前提是必须对数学这门外语有一定了解,就是一门外语啊。比如告诉我一个矩阵的维度是4×5,我头脑里有概念,这是小学的数学知识学得好,但你告诉我它的维度是n×p,我的CPU和GPU就不太够用了,所以得像学习英语一样,方法+重复才是硬道理。

如果知道了这些方差们的具体数值,求算各个因素的系数(我们最终要的是这个)就相对容易多了。但这些方差是怎么计算的?一般会告诉采用了什么方法(REML用的多),但这又是什么我想很多人想知道但没人教,所以一直糊涂着,只停留在会用的地步,当然会处理数据也够用。我很有兴趣,但到今天我也不全会,也没有能力在R中实现,原因是没那个功底,不会矩阵求导,盼望有一天谁来引领一下,但这不是刚需,因此参数求解就停在这里了。下面就我了解的知识对LMM做2部分的介绍,主要目的是自我梳理,学识有限,错误难免。

1. LMM的形式

y=X\beta+Za+e

这是基本形式,更复杂的都是在其基础上演变出来的。

式子里一共有6个字母,4个小写,2个大写。小写是向量(1维矩阵),大写是矩阵。这几个字母的意思分别是:

字母 名称 维度
y 观测值 n×1
\beta 固定效应(p个水平) p×1
a 随机效应(q个水平) q×1
e 随机残差 n×1
X 固定效应设计矩阵 n×p
Z 随机效应设计矩阵 n×q

有几个假设

\left[\begin{array}{c} a\\e \end{array} \right] \sim N \left( \left[\begin{array}{c} 0\\0 \end{array} \right], \left[\begin{array}{c} G&0\\ 0&R\\ \end{array} \right] \right)

意思是a和e这2个向量的参数(均值和方差),均值都是0,方差分别是G和R,协方差是0(彼此独立,没有线性关系)。G和R具体又是什么?var(a)=A_{q×q}\sigma_a^2=Gvar(e)=I_{n×n}\sigma_e^2=RA是随机效应中q个水平之间的关系矩阵(分子关系矩阵),如果水平间不相关(独立),那么就等同于单位矩阵I。这里只假设a是1个效应,a也可以是含有多个效应的列向量;同样,在某些情况下,也可以继续分解R。此外,观测值的期望是E(y)=X\beta,方差(marginal)var(y)=V=ZGZ^T+R。期望比较容易理解,方差为何是这个形式?G左右为何乘以Z?很多材料没有给详细的推导式子。Mrode(2013,p35)中:
\begin{eqnarray} var(y)&=&V=var(Za+e)\\ &=&Zvar(a)Z^T+var(e)+cov(Za,e)+cov(e,Za)\\ &=&ZGZ^T+R+Zcov(a,e)+cov(e,a)Z^T\\ &=&ZGZ^T+R \end{eqnarray}

总之,一个普通LMM中的元素就这么多,了解了这些内容,才有可能看懂后续的似然函数以及参数具体的ML或REML过程。

2. REML过程(待更)

上一篇 下一篇

猜你喜欢

热点阅读