关于多重共线性的一点感想
多重共线性是指多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。比如虚拟变量陷阱(英语:Dummy variable trap)即有可能触发多重共线性问题。
————维基百科
在科学研究问题中,共线性绝对是一个很让人头大的问题,只要不是统计学专业,绝对对这个问题有过很长时间的纠结,纠结的问题则是是否去除变量,很多情况下,我们使用方差膨胀因子VIF = 1 / (1-R^2) 来处理共线性问题,并且选择10作为处理变量的阈值,如果样本量很大,则选择3,甚至2作为阈值去除变量。如此一来,导致了一些潜在问题,如果变量本身不多,只有3个,去除掉某个变量后自然会使得另外2个变量的影响发生改变,这种改变是否真实则不敢下定论。
虽然本身不是统计学专业,但是从多年数据分析的经验来看,变量之间的相关性是存在的,比如在分类学中,对于头骨标本的测量值,头骨不同部位的测量值之间绝对存在共线性,这种共线性来源于进化发育,不可能有个动物的眼眶长和颅骨长是完全独立发育的;又或者说生态学中,共线性来自于生态系统变量之间的相互作用,降雨量和温度,海拔和气压的关系等都存在共线性。是否说为了解决共线性的问题,我非得去除变量以满足模型假设不可?
最近看了一些关于这个问题的讨论,略有所获,引用知乎慧航的解释。
共线性会让人得到不显著的结果,换句话说,如果结果显著,则不必担心共线性的问题。
——慧航
现在来说,很多手段都可以躲避这个问题,比如主成分回归、岭回归、机器学习等,如果不在乎变量分析,显然这些是更好的手段。从本身从事的专业角度来说,我们也并不追求显著结果,自然科学中没有理论基础的显著性的结果并没有太大意义,尤其是近年来对p值显著性的争论也越来越多。但是我还是非常赞同慧航大神的解释,共线性通过影响变量之间的关系改变模型整体结果。由此,解决共线性的问题就变成了解决模型的问题,如果模型是为了解释变量对于因变量的影响,可以通过模型筛选的手段进行排序,共线性则可以忽略,或者作为一个解释角度引入;如果模型是为了筛选出重要的变量,共线性则作为一种依据,筛选得出影响最大的变量以及对模型的边际影响效果。