相关回归常见问题
多数情况下,变量关系研究是问卷研究的核心,变量关系研究包括相关分析,线性回归分析,中介作用分析,调节作用分析等,并且如果因变量Y值是分类数据,则会涉及Logistic回归分析。相关分析是研究两两变量之间的相关关系情况,线性回归分析或者Logistic回归分析均是研究影响关系,区别在于线性回归分析的因变量Y值是定量数据,而Logistic回归分析的因变量Y值是分类数据。中介作用或者调节作用研究是更深入的关系研究分析,会在之后的文章中介绍。本文重点对相关分析和回归分析的常见问题进行解答。
0)相关和回归的关系和区别
相关分析和回归分析,二者既有联系,又有区别。接下来详细说明。
相关分析:研究有没有关系,关系强度如何。
回归分析:研究影响关系如何,有没有影响关系,影响关系如何。
相关分析是研究有没有关系,回归分析是研究影响关系。明显地,相关分析是基础,然后再进行回归分析。首先需要知道有没有相关关系;有了相关关系,才可能有回归影响关系;如果没有相关关系,是不应该有回归影响关系的。因而从分析角度,应该先进行相关分析,完成相关分析后,确认有了相关分析,再进行回归分析。
有时候会出现奇怪的现象,比如:
有回归影响关系,但是却没有相关关系【此时建议以‘没有相关关系作为结论’】
负向影响关系,但却是正向相关关系【此时建议以‘有相关关系但没有回归影响关系作为结论’】
1)回归分析缺少Y
回归分析是研究X对于Y的影响。有时候由于问卷设计问题,导致直接缺少了Y,建议可以考虑将X所有题项概括计算平均值来表示Y。(SPSSAU用户使用“生成变量”的平均值功能)
另提示:如果问卷中并没有设计出Y对应的题项,没有其它办法可以处理
2)是否需要进行散点图分析?
散点图可以直观展示两个变量之间的关系,通常情况下需要首先进行散点图分析,再进行相关关系分析,接着进行回归分析。
3)相关分析应该选择Pearson还是Spearman?
相关系数分为两种,分别是Pearson相关系数和Spearman相关系数。绝大多数情况下均使用Pearson相关系数,软件默认使用Pearson相关系数。如果研究时发现研究变量严重的不正态分布,此时使用Spearman相关系数较为合适。
4)相关分析结果与线性回归分析结果矛盾?
如果相关分析结果与线性回归分析矛盾,比如没有相关关系,但是却呈现出显著的回归影响关系。也或者变量之间为显著正相关,但是却出现负向回归影响关系。此时应该以相关分析结论为准,出现此类问题的原因很可能是Suppressor
effect(压抑效应)。
5)分类数据作为自变量如何进行回归分析?
如果分类数据希望作为自变量放入模型,应该首先将分类数据进行虚拟变量处理,然后再放入模型中,虚拟变量处理可参考5.2.8部分。
6)分类数据作因变量时的分析方法。
如果分类数据作为因变量,此时应该使用Logistic回归分析,具体Logistic回归分析的类别选择,可以参考10.2.4部分。
7)回归分析没有通过F检验,但回归系数呈现出显著性。
如果回归分析并没有通过F检验,此说明所有自变量X均不应该对因变量Y产生影响关系,即研究模型没有意义。此时即使回归系数呈现出显著性,也应该以F检验结果为准,即说明自变量X不会对因变量Y产生影响关系。
8)回归分析时VIF值高于10。
如果VIF值高于10,说明具有严重的多重共线性问题,此时模型结论不可信。针对多重共线性问题,最佳的处理办法是对题项进行探索性因子分析,利用探索性因子分析得到的因子得分重新进行回归分析。除此之外,也可以将自变量进行相关分析,找出相关关系最为紧密的研究变量,将此类变量移出回归分析重新进行分析。
9)回归分析时,某变量没有呈现出显著性,但理论上确认肯定应该显著。
如果回归分析时某研究变量没有呈现出显著性,但是理论上认为应该具有显著性,此时可以考虑对样本进行筛选处理,以及将样本个人背景信息作为控制变量加入模型,重新进行分析。
10)R平方值很小,低于0.4。
R平方值表示模型的解释力度,即模型拟合度情况,此值介于0~1之间,数值越大,说明模型拟合度越高,通常情况下越大越好。实际研究中,此指标的意义相对较小,即使此指标小于0.4也没有关系。应该重点关注自变量X与因变量Y之间的回归关系,即自变量是否呈现出显著性。
11)调整R平方值为负数。
调整R平方值可以为负数,如果出现负数时,通常情况下R平方值会非常小,接近于0,模型基本没有意义。
12)控制变量是什么,用处是什么?
控制变量,实质就是自变量,但通常该类变量并非研究核心变量,其可能会对模型产生干扰,因此也需要将其放入模型,并且称之为控制变量。通常情况下控制变量为样本基本背景信息题项,比如性别,学历,年龄,收入等。将控制变量放入回归模型中,目的在于防止此类变量对于研究带来的干扰。通常情况下,控制变量为诸如性别,学历等为分类数据,因而多数情况下控制变量需要进行虚拟变量处理。
13)探索性因子分析保存得分是否可以作为自变量?
如果一个研究变量对应多个题项,常见的做法是将多个题项计算平均值,并且以平均值代表整体研究变量。如果对研究变量进行探索性因子分析,并且保存因子分析,也可以利用因子得分去代表对应研究变量,进行相关或者回归分析。
14)Hosmer and
Lemeshow检验对应P值小于0.05。
进行二元Logistic回归分析时,如果Hosmer and Lemeshow检验显示P值小于0.05,即说明模型拟合情况与实际情况有较大出入,模型并不理想。可以考虑对自变量数据重新组合处理,也或者对因变量数据重新组合处理等多种方法测试,寻找出最优结果。
15)整体预测准确率低于70%。
如果二元Logistic回归分析显示整体预测准确率较低,低于70%时,说明模型整体情况不佳。可以考虑对自变量进行重新组合处理,或者对个别无意义自变量进行删除处理等,多种处理对比,找出最优结果。
16)输出结果中某项不显示P值。
如果二元Logistic回归分析中有分类数据,则模型会以某项作为参照对比项,参照对比项不会输出P值等指标。