统计学（50）-多水平模型

2020-02-12 本文已影响0人 Zhigang_Han

多水平模型打破“独立”条件
广义线性模型除要满足“线性”这一条件外，还有一个重要的条件就是“独立性" 。如果不满足线性条件，可以考虑广义可加模型；如果不满足独立性条件，则可以考虑多水平模型（Multilevel Model)。

1、什么是多水平？

image.png

（1）不难理解，所谓多水平数据，也就是自然形成的层次数据。
（2）在多水平数据中，最低层次称为水平1, 往上依次称为水平2 、水平3。如村民是水平1单位，村是水平2单位，县是水平3单位。

2、多水平数据的非独立性

（1）调查30个村，每个村调查100人的饮食情况，对于每个村内的村民而言，他们很可能有类似的饮食习惯（如都喜欢吃咸），从而可认为村内的村民之间并不是独立的。
（2）观察60人，每人观测5个时间点，了解他们的血压值情况，对于同一个人而言，在5个时间点的血压值应该是差不多的，不会有太大的波动，从而可认为每个人的不同时间的观测值并不是独立的。

3、多水平模型的不同叫法

多水平模型在不同领域有不同的称谓，如分层线性模型(Hierarchical Linear Model) 、混合效应模型(Mixed Effect Model) 、随机效应模型(Random Effect Model) 、随机系数模型(Random Coefficient Model) 、方差成
分模型(Variance Component Model) 等，其实表达的意思都差不多，都是处理多水平数据的模型。

3、多水平模型的思想

（1）多水平模型的思想要稍微复杂一些，因为它同时包含了多个水平的数据，从而在多个水平上都存在残差。总的来说，其思想就是把高水平上的差异估计出来（传统的线性模型不考虑这一差异，将其放到了残差中），这就使得残差变小，估计的结果更为可靠。
（2）虽然理论上多水平模型可以有多个层次，但实际中最常用的是二水平模型。

4、一个例子-二水平模型

下表是12名儿童在30 、36 、42 、48个月时认知能力得分的测量结果（认知能力得分），目的是想了解年龄对认知能力得分是否有影响。（只标注出一部分）

image.png
该数据是一份二水平数据，其中儿童个体为水平2单位，测量的时间点为水平1单位。
如果用常规的线性模型拟合，就是将所有的48个数据建立线性模型。

image.png
（1）这个模型是将12名儿童的数据合起来建立的，因此有时也称合并模型(Pooled Model)。
它暗含了一个假定条件：12 名儿童的认知能力得分随年龄变化的截距和斜率都是相同的，而实际上却未必如此。（类似于4个社区SO2的统计结果）
（2）12 名儿童的认知能力得分随年龄的变化情况，可以看出，有的是随年龄增长，有的则是随年龄降低；即使在增长的儿童中，其增长速度也各不相同，有的增长快，有的增长慢。
（3）也就是说，每个人（水平2单位）的认知能力得分随年龄的变化可能有不同的截距和斜率，而传统线性模型则忽略了水平2单位上的差异。那么，既然它没有考虑到水平2单位上的差异，而水平2单位又确实存在差异，那这一差异去哪儿了呢？被线性模型归到误差中去了，

image.png
从而导致误差增大。
（4）怎样找出这种差异呢？
很自然的一个想法是利用虚拟变量回归，将12 名儿童的认知能力得分随年龄变化的截距差异和斜率差异估计出来，这样就可以反映出水平2 单位之间的差异，这种方法一般称为固定效应模型(Fixed Effect Model)。
但是固定效应模型有一个问题： 12名儿童就需要估计11个虚拟变量，当水平2单位更多的时候（如120名儿童），需要估计的参数太多，用虚拟变量就会消耗太多的自由度，估计结果不可靠，而且也没什么实际意义。因为我们并不关注具体谁和谁之间的差异有多大，我们只要知道这些儿童之间总的有多大差异就行了。这时候用固定效应模型就不大合适，而应采用随机效应模型(Random Effect Model), 也就是多水平模型。
（5）多水平模型
多水平模型是把水平2单位看作从一个更大的总体中随机抽样的个体，个体之间的差异是服从某种特定分布（如正态分布）的随机变动。这样，我们只要把这种分布的均数和方差估计出来，就可以反映出这些水平2 单位围绕均值的波动大小（变异大小）。不管是12人还是1200人，都只需要一个均值和方差便可以描述其变异大小。

5、多水平模型的分类

多水平模型根据实际情况一般可分为两大类：随机截距模型和随机斜率模型。
（1）随机截距模型
这种模型假定水平2 单位之间仅截距不同，斜率是相同的。如下图12名儿童的认知能力得分随年龄变化的斜率都相同，但截距不同。

image.png

（2）随机斜率模型
这种模型假定水平2 单位之间不仅截距不同，而且斜率也不同。下图12 名儿童的认知能力得分随年龄变化的截距和斜率都不同。

image.png
上述两类模型不做具体分析，只把握其思想，后续具体问题具体分析。