数据分析之因子分析
系统聚类分析可以对变量进行分类,但是难以判断变量分类结果的合理性。另外,如果要衡量每个变量对类别的贡献,也难以通过聚类分析来实现。这个时候就要采用因子分析来实现了。因子分析就是找出隐藏在变量背后具有共性的因子。
文/黄成甲因子分析
因子分析是通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归结成少数几个综合因子,并据此对变量进行分类的一种统计分析方法。由于归结出的因子个数少于原始变量的个数,但是它们又包含原始变量的信息,所以,这一分析过程也称为降维。
因子分析的主要目的有以下三个:
(1)探索结构:在变量之间存在高度相关性的时候我们希望用较少的因子来概括其信息;
(2)简化数据:把原始变量转化为因子得分后,使用因子得分进行其他分析,比如聚类分析、回归分析等;
(3)综合评价:通过每个因子得分计算出综合得分,对分析对象进行综合评价。
因子分析就是将原始变量转变为新的因子,这些因子之间的相关性较低,而因子内部的变量相关程度较高。
为了更好的了解因子分析,需要了解以下:
几个概念
(1)因子载荷
因子载荷就是每个原始变量和每个因子之间的相关系数,它反映了变量对因子的重要性。通过因子载荷值的高低,我们能知道变量在对应因子中的重要性大小,这样能够帮助我们发现因子的实际含义,有利于因子的命名。当有多个因子的时候,因子载荷将构成一个矩阵,称为因子载荷矩阵。
(2)变量共同度
变量共同度就是每个变量所包含的信息能够被因子所解释的程度,其取值范围介于0和1之间,取值越大,说明该变量能被因子解释的程度越高。
(3)因子旋转
因子分析的结果需要每个因子都要有实际意义,有时,原始变量和因子之间的相关系数可能无法明显地表达出因子的含义,为了使这些相关系数更加显著,可以对因子载荷矩阵进行旋转,使原始变量和因子之间的关系更为突出,从而对因子的解释更加容易。
旋转方法一般采用最大方差法,该方法能够使每个变量尽可能在一个因子上有较高载荷,在其余的因子上载荷较小,从而方便对因子进行解释。
(4)因子得分
因子得分可以用来评价每个个案在每个因子上的分值,该分值包含了原始变量的信息,可以用于代替原始变量进行其他统计分析,比如回归分析,可以考虑将因子得分作为自变量,与对应的因变量进行回归。
原始变量的数值是可以直接观测到的,而因子得分只能通过原始变量和因子之间的关系计算得到,并且因子得分是经过标准化之后的数值,各个因子得分之间不受量纲的影响。
因子分析步骤
(1)判断数据是否适合因子分析;
因子分析的变量要求是连续变量,分类变量不适合直接进行因子分析;建议个案个数是变量个数的5倍以上,这只是一个参考依据,并不是绝对的标准;KMO检验统计量在0.5以下,不适合因子分析,在0.7以上时,数据较适合因子分析,在0.8以上时,说明数据极其适合因子分析。
(2)构造因子变量;
(3)利用因子旋转方法使得因子更具有实际意义;
(4)计算每个个案因子得分;
确定提取因子个数的标准
(1)初始特征值大于1的因子个数;
(2)累积方差贡献率达到一定水平(60%)的因子个数;
(3)碎石图中处于较陡峭曲线上所对应的因子个数;
(4)依据对研究事物的理解而指定因子个数;