(4)Multilevel Model多层次模型-基础及RC模型
多层次模型被设计来分析阶层结构的数据,所谓阶层(hierarchy)是指由较低层次的观察数据嵌套(nested in)在较高层次之内的数据结构所组成。例如学生嵌套在学校之内,员工嵌套在公司之内,重复测量嵌套在个体之内。最低层次的测量称为微观层次(micro level),其他高层次的测量则属于宏观层次(macro level),宏观层次通常由不同的组别(groups)构成,更正式的说法是不同的脉络(contexts)。【ps:个人认为使用 组别(group)更恰当也更易于理解】
脉络模型(contextual model)指的是兼具微观与宏观层次的模型,脉络模型有时仅有两个层次,如学生嵌套于学校,但是也会超出两个层次,如学生嵌套于班级,班级嵌套于学校等等,还可以再往上追层次。所以以此看来现实生活中的层次是无所不在的。【ps:这里的宏观与微观只是相对的概念】
如果一个模型包含了不同层次的测量变量,称为多层次模型(mutilevel model)。在多层次模型中,宏观高层所对应的每一个组都可以估计出一条低层的直线方程,每条直线方程都有相同的自变量和因变量,但是回归系数不同,所有的方程被一个高层模型所联结,在高层次模型中,第一层次的回归系数可以被第二层次的解释变量所解释【如收入对主观幸福感的效应可以被省份变量所解释】。
每一个组进行个别回归分析之后,再以高层变量来解释第一层系数,将第一层各组的回归系数作为第二层的结果变量进行分析,称为斜率结果(slope-as-outcome)分析。
在阶层数据分析当中,分组不一定是一群个体的集合。个体也可能是宏观层次的观察单位,而不必然是微观层次的数据。如果分析的数据是个体重复观测的数据,研究者所测量的数据是嵌套在个体之内,而且彼此之间具有相关。此时,组内相关所测量的是同一个个体后面的行为与他之前的行为之间相似程度。例如:如果对学校的学生具有重复测量的数据,即形成一个三阶层的数据结构。重复数是第一层,嵌套于学生之中,成为第二层,学生嵌套于学校之中成为第三层。【成长分析,数据结构与 panel data 相似,经典案例:对猪的成长期重量的测量,对猪的重复测量嵌套于猪之中,个体的猪嵌套于猪的类型之中】
组内相关一般以rho来表示,表示组内的同质性,组内相关更正式的定义是指当数据具有两个层级的结构时,高层次观察单位之间的组间方差占结果变量方差的比例,不论从哪一个方面来界定组内相关所反映的都是组内相依性的存在,一旦组内存在相关性,传统线性模型对于观测值需为独立的假设即遭到了违反,会使得一型错误率(alpha水平)上升。当组内相关存在时,30个在同一班级的学生已非30个独立的个体,由于传统线性模型的ANOVA显著性检验是以观察值的独立性为基础,当组内相关存在时,将造成传统线性模型的显著性检验过于宽松。Barcikowski(1988)指出在多数的ANOVA检定中,参数估计的标准误都是被低估的,一个很小的组内相关(rho=0.01)都可能造成Ⅰ型错误率(alpha=0.05)的实质扩大。对于一个大样本(N=100)来说,rho=0.01的低度组内相关即会使得Ⅰ型错误率由0.05提高到0.17.对于一个小样本(N=10),rho=0.2的组内相关会使Ⅰ型错误率由0.05膨胀到0.28。因此组内相关存在时,必须考虑多层次线性模型。准则是rho>0.138急需要使用多层次模型。
1、随机与固定效应
2、随机与固定变量。随机变量(random variable)指的是一个变量的数值是来自于几率分配。固定变量(fixed variable)指的是一个变量的数值是已知的,是固定的数值。
3、随机与固定系数。在传统的回归模型中,斜率与截距均被假设为固定的数值而不会变动,系数的数值是从观察数据中所估计得出,而随机系数指的是系数的数值服从某一概率的函数分布,在随机系数模型中,第一阶层的回归模型系数被用随机系数来处理。
以斜率(slope)为例,斜率的随机系数被区分为两个部分:第一是整体斜率(overall slope)的数值,是从所有的个体中估计得出,不在乎这些个体属于哪个组,第二则是斜率方差(slope variance),表示每一组的斜率与整体斜率有所差异的变动情形。在多层次模型中,若为随机系数模型,则允许各组从平均数处存在变异,不论是截距或斜率上的变异(因为随机系数模型包含随机截距模型),进而可以估计变异情形。
【跨层级的交互作用】:关于模型中跨层级交互项的说明,低层变量与高层变量的交互,如学生的性格特性与学校特征(教学风格)之间的交互:学生个人的性格与学习成绩之间的关系受到一定类型的教学风格的强化或者削弱影响。学生是微观层次而老师是宏观层次,老师与学生之间的交互作用即微观与宏观的跨层级交互作用。
通常我们做回归并没有考虑系统层次对微观个体的影响,会使用下面几种回归的方式:
【整体回归】:即把所有的数据全部拉到一起跑出一个回归方程,这意味着我们并不预期高层次的差别对于因变量会有什么影响,一个截距一个系数。
【聚合回归】:将高层的各组 x 和 y 分别求取平均数,有几组就得到几个 x 和 y,用这些平均出的x-y进行回归,得到一个方程,很明显聚合回归忽略了所有组内的变异(只用一个平均数代替组的 值),因此流失了大量可能是很重要的变异。
【脉络模型】:把个体层次的变量取组平均数之后,作为脉络变量(其实就是分组变量),与低层自变量同时作为自变量加入回归方程。显然会产生严重的多重共线性(multicollinearity)问题,个体解释变量与分组层次的各平均数之间高度相关。再一个问题就是这里无论是自变量(就算是聚合而成的各组均数仍然是个体层次的测量)还是因变量仍然还停留在个体层次,忽略了数据的嵌套结构。
【Cronbach 模型】:在脉络模型的基础上,将个体层次的解释变量进行对中处理(X-Xba),原始数据以组平均数为中心转换成离差分数(deviation score),经过对中处理的个体分数与经过对中处理的分组层次分数为正交关系(不相关),避免了共线性问题。但这种分析仍然以低层次的数据来处理,导致标准误被低估,造成显著性检验的Ⅰ型错误膨胀。
【协方差分析ANCOVA】协方差分析中,个体的差异是被忽略的,或被视为干扰项,所强调的是组间的效果。在ANCOVA中,个体解释变量的功能是协变量(covariate),而分组变量则是分析的重点。这源自于实验法,所以这里分组常常指的是实验组和控制组。ANCOVA的假设是各组都有相同的斜率,而截距不同。
随机截距 也可能是这样 但是实际应该是这样:随机系数模型10个学校产生10个截距与10个斜率,我们希望以一个变量(高层变量)去解释所有这些斜率与截距的变化,完成整合。最好的办法就是利用Random Coefficition 随机系数模型,不但保留了个别学校的特殊性也兼顾了各校间的共通性。
RC模型就是完成截距随机变化与斜率随机变化的整合,用一个模型来同时表示截距和斜率的变化。
截距的变异范围(即截距的方差) 斜率的变异范围(即斜率的方差) 用一个RC模型同时表示截距与斜率的变异范围(用高层变量的方差来解释截距和斜率的方差)在由此可知RC 模型由两部分组成:平均数(固定部分)与方差(随机部分)。RC模型的随机部分由宏观层次的方差来描述,反应了统计模型从一个宏观模型会发生变动、变化的程度。
在RC模型中,系数被视为带有方差的主效应,这一方差代表了所有组关于总水平或者说是主效应的离差。更具体来说,所谓随机系数就是一个固定成份(fixed components)加上一个扰动项(disturbances)所组成。
随机系数模型表达式 随机项组成Reference: Ita kreft & Jan De Leeuw,2007,《多层次模型分析导论》,邱皓政译,重庆:重庆大学出版社。