读书笔记系列(二)—— 控制变量究竟怎么选?
为什么要纳入控制变量?控制变量怎么选?这又是一个很重要的问题!
接上文,社会科学关注“非对称关系”(X影响Y),这类关系中,自变量多是所属集体、组织、社会类别等因素,因变量多是行为、观点、态度等特征。
这类关系在研究的一开始,多半是描述性的。例如观察到天主教徒比新教徒更倾向于投票给民主党。但是,这不能解释为什么是这样,因此需要进一步分析。深入的分析需要进一步引入第三变量——控制变量。分析的目的是看是否X与Y的关系在纳入Z后,原有关系是否还存在或发生某种改变。加入控制变量的较为正式的提法是子群体分析(sub-group classification analysis)。
看到一组相关的变量,我们需要测试其是否仅仅是虚假相关。事实上,虚假相关这个提法不对,相关都是真实的和客观存在的,所谓虚假是指虚假的解释,即所谓的不对称关系,可能事实上仅是对称关系(即前述对称关系中的三类之一),只不过统计上显示二者相关而已。
例1:发现老年人比年轻人更多地听宗教节目,我们怀疑是因为教育差异导致的,所以我们就引入教育水平变量,看在不同教育水平的组内,比较年轻和年老的人听宗教节目的比例。如果发现在各组教育水平下(比如一组高,一组低),原来关系不存在了,则说明是教育水平而不是年龄,解释了观看率的差异。
例2:瑞典发现鸟多的地方,婴儿出生也多,这不能简单解释为鸟生了婴儿(真实原因是农村鸟多,同时农村生育率更高)。此例中,鸟和婴儿都是“内生于”地理环境这个变量的,地理环境是外生变量,只有它才是真正的解释变量。
例3:发现精神病发病率逐年上升,提出假设:因为生活环境发生变化,导致人们生活压力增大,所以发病率上升了。但是,其中有一个很重要的变量被忽视了,年龄。在以世纪为观察区间,相同年龄段下,发病率几乎不变。这证明了,之前的很多假设都不是真正原因。进一步我们会问,为什么年龄会使发病率上升呢?答案是,年龄越大,越容易出现老年痴呆,老年痴呆是退行性病变,与压力无关。近年来发病率的上升,是因为平均年龄增大导致的。
例4:发现老年人比年轻人读书更少。提出假设:年龄越大视力越差,所以读书越少。如果这个假设成立,那么老年人将不仅读书少,其他需要较好视力的活动都会少(例如看电视),但这很可能不成立。事实上,老年人很可能教育程度更低,而低教育水平的人往往不爱读书。所以,此例中,年龄与读书是虚假关系,教育水平与阅读量是真实关系。
有时,纳入控制变量还可以用于加强原有假设的解释力,即通过排除竞争性假设来巩固原假设。(实证研究中称为:稳健性检验)
例5:发现在孩子的童年时期,母亲记住孩子的朋友数量越多,成年后孩子的自尊心越强。即母亲越在孩子童年时期关心他,孩子日后自尊心也会更强。
竞争性假设1:孩子如果对母亲的态度越不好,他越可能认为他妈不清楚他的朋友,同时这类人也倾向于自尊心更低。因此,控制因素就是“对母亲的态度”。进而提出一个问题:如果父母出现争执,你站在谁那一边儿?然后分析,站在“母亲”、“父亲”或“无所谓”三组下,原关系是否还成立。如果原关系还成立,则竞争性假设就不成立。间接增强理论说服力。
竞争性假设2:有可能是小时候对母亲的态度,而不是现在对母亲的态度,解释了自尊心差异。那么可以增加新问题:在你童年时,你最喜欢跟谁讨论个人私事?然后,分析在“母亲”、“父亲”、和“两者都”三个组别下,原假设是否成立。如还成立,则进一步加强了原假设的说服力。
纳入控制变量,只能用于排除或增强原假设,但永远不能证实原假设。但控制变量的选择不是无脑地纳入社会阶层、性别、年龄等。控制变量的纳入,是逻辑指引而不是统计技术规定的,需要考虑要纳入的变量对待验证的关系是否有影响。这就是计量经济学中,控制变量选择的核心原则:控制那些对自变量和因变量都有影响的变量。某一变量仅与解释变量或因变量单相关,就无需纳入控制。因此控制变量选择需要满足两个必要条件:
(1)该变量在理论上或逻辑上对X与Y的关系有影响
(2)该变量在统计上与X和Y都相关
例6(控制变量仅与解释变量相关):有人发现社会等级与精神疾病发病率有关联,社会等级越低,精神疾病发病率越高。他提出假设:社会底层人更多信奉天主教,高层人则信奉基督教,可能是天主教导致了精神疾病。要测试这个假设,我们需要画一个宗教变量与精神病发病率的表,如果发病率与宗教信仰无关,那么在检验社会阶层与发病率的关系时,就无需纳入宗教因素。
解释变量的“分”与“合”
分:有些假设中的解释变量过于“宏大”,例如社会环境对态度的形成有重要影响、个人性格决定个人行为等等。这类假设几乎无法去证伪,因此也不会对我们的知识提升有任何价值。因此,针对此类宏大变量,要做的事情是,说明这个变量的哪一方面具体影响到因变量。例如,若假设是社会等级较低的人更容易得精神病。针对这一假设,可以细化的方向有:是钱少导致的精神病?低自尊?低教育水平?等等。这些特征,哪个或哪些对精神病发病率有作用?此时,需要先对这个“宏大的”自变量进行多维度的解剖,分析找到最重要的那个维度后,再进行研究。
例7:有一项研究试图区分中产阶级和劳动阶级两类家庭教育理念的不同。研究人员的问卷问题是: 对于12岁孩子,你最看重哪一点? 选项有诚实、快乐、听话等等。但经过分析,发现最重要的一个差异是,劳动阶层最看重听话,而中产阶层更看重自律(方法可用多元统计中的“判别分析”)。而顺着这个线索,我们可以认为是两类阶层工作性质的不同(劳动阶层更强调服从),导致了不同的教育观念。
合:有时候你可能会发现一个非常具体的因素并不会对某个因变量有影响,但与其他变量合在一起后,组成的“宏大”变量就有影响了。因此就需要先利用因素分析(或主成分分析)合成宏大变量后,再进行分析。
但还有一种情况是:
例8:有人发现职业背景对投票行为有影响,比如投民主党的更多是白领,投共和党的更多是劳动阶级。但是,当控制了“社会阶级”这个更宏大的变量后,原关系就消失了。这说明,原变量是更宏大变量的一个指标,事实上是这个更宏大变量而不仅仅是职业决定的投票行为。
变量分析是一门技术活儿,更是一门艺术活儿。量化研究,套路易学,思维难学!
如对该问题想进一步与作者交流:
可加微信:NIUBICHENG1991
发送邮件:able77@126.com