SPSSAU数据分析入门教学

有序logit回归实例分析(Oridinal Logistic

2019-08-02  本文已影响22人  spssau

如果研究X对于Y的影响,Y为定量数据则可以使用线性回归分析。如果Y是定类数据,此时则需要使用Logit(logistic)回归分析。Logit回归共分为三种,分别是二元Logit(Logistic)回归、多分类Logit(Logistic)回归,有序Logit(Logistic)回归(也称Oridinal回归),此三个方法的区别在于因变量Y的数据类型。如下表:

SPSSAU整理

哑变量问题

有序logistics回归中,X可以为定量数据,也可以是定类数据。但如果定类数据纳入模型,需要先将其设为哑变量

SPSSAU-哑变量设置

平行性检验

即检验自变量各取值水平对因变量的影响在各个回归方程中是否相同。平行性检验的原假设为模型满足平行性,因而如果P值大于0.05则说明模型接受原假设,即符合平行性检验。反之如果P值小于0.05则说明模型拒绝原假设,模型不满足平行性检验。

如果不满足平行性怎么办?

平行性是有序Logit回归的前提条件,如果不满足平行性,一般有两种处理方法:①选择适合的连接函数,以找到满足平行性检验的模型。②如果各种连接函数都无法满足平行性,则改用多分类Logit回归模型。

连接函数会对平行性检验起到影响,如果平行性检验无法通过时,可考虑选择更准确的连接函数进行尝试,按照因变量选项的分布情况划分,各类连接函数的使用场景说明如下,SPSSAU提供了5种连接函数:

如果模型没有特别的要求,应该首选使用logit连接函数,尤其是因变量的选项数量很少的时候。如果无论如何模型不满足平行性检验, SPSSAU建议使用多分类Logit回归分析。

案例应用

(1)背景

当前有一份研究数据是用来研究民众幸福度影响因素,包括性别,年龄,学历和年收入水平共4个潜在的影响因素对于幸福水平的影响情况。幸福水平共由三项表示,分别是“不幸福,比较幸福和十分幸福”,由于Y为定类数据且有序,因而适用于有序Logit回归分析。

(2)操作步骤

本例子中研究X对于Y的差异;X分别为性别,年龄,学历和年收入水平,Y为幸福水平,幸福水平共由三项表示,分别是“不幸福,比较幸福和十分幸福”。由于性别为类别数据,所以将其设置为虚拟哑变量,并且以“男”作为参照项,放置如下:

使用路径:SPSSAU→进阶方法→有序logit

(3)结果分析

针对有序logistics回归分析SPSSAU共输出5个表格,分别是:频数分布表、平行性检验结果、似然比检验结果、有序Logistic回归模型分析结果汇总,以及模型预测准确率表。

①频数分布汇总

表1 频数分布表

表1为频数分布表,展示因变量各个类别的分布情况。如果因变量各类别分布非常分散,则需要对类别进行重新组合后再次进行分析。同时,如果因变量的类别个数非常多,也需要针对类别进行重新组合后才能进行分析。

从上表可知,总共有372个样本参加分析,并且没有缺失数据。认为处于不幸福状态的人占到45.16%,认为比较幸福的人的比例为20.7%,认为非常幸福的人比例为34.14%。数据分析比较均衡。

②平行性检验

表2 平行性检验

表2展示模型的平行性检验,检验的原假设为模型满足平行性,因而如果P值大于0.05则说明模型接受原假设,即符合平行性检验。

上表中可知,平行性检验的原假设是各回归方程互相平行,P=0.762>0.05接受原假设,说明模型通过平行性检验,可进一步进行分析。

③似然比检验

表3 似然比检验

表3展示模型的似然比检验结果,用于分析模型整体有效性。

其原假设是模型的回归系数全部均为0,因此如果P值小于0.05,则说明拒绝原假设,即说明模型有效;反之如果P值大于0.05则说明接受原假设,即说明模型回归系数全部均应该为0,模型无意义。AIC和BIC值用于多次分析时的对比;两个值越低越好;如果多次进行分析,可对比此两个值的变化情况,说明模型构建的优化过程。

从上表可知:此处模型检验的原定假设为:是否放入自变量(性别_男, 年收入水平, 文化程度, 年龄)两种情况时模型质量均一样;分析显示拒绝原假设(Chi=62.510,P=0.000<0.05),即说明本次构建模型时,放入的自变量具有有效性,本次模型构建有意义。

④ 回归模型分析结果汇总

表4 有序Logistic回归模型分析结果汇总

表4是模型结果分析汇总表,用于展示模型的结果,可以说是最为重要的结果,包括回归系数的显著性,模型R方值等。

上表格中包括因变量阈值,其值基本无意义,仅从数学角度上看有此值输出而已。同时输出Cox and Snell,Nagelkerke和McFadden,三种常用的计算伪决定系数的方法,通常伪决定系数不会太高,不需要过多关注。

从上表可知,模型伪R平方值(McFadden R平方)为0.080,意味着性别, 年龄, 学历, 年收入水平可以解释幸福水平的8.0%变化原因。

具体分析,年收入水平,回归系数值为0.508,并且呈现出0.01水平的显著性(z=4.849,P=0.000<0.01),意味着年收入水平会对幸福水平产生显著的正向影响关系。OR值为1.662,意味着年收入水平增加一个单位时,幸福水平的变化(增加)幅度为1.662倍。换句话说相对于低收入人群,年收入越高,幸福水平就越高。

年龄、文化程度同年收入水平均对幸福水平产生显著性影响,这里不再展开分析。

总结分析可知:学历,年收入水平会对幸福水平产生显著的正向影响关系,以及年龄会对幸福水平产生显著的负向影响关系。

 

有序Logistic回归模型预测准确率汇总

表5 有序Logistic回归模型预测准确率

表5位模型预测准确率表格,用于展现预测准确率情况,包括各个类别和整体的预测准确率。如果模型用于预测分析,则预测准确率非常重要,如果模型用于研究影响关系,则不太关注预测准确率值。

通过模型预测准确率去判断模型拟合质量,从上表可知:研究模型的整体预测准确率为55.65%,模型拟合情况较差。但本研究模型的重点在于找出对幸福水平有影响的因素,因此准确率的关注意义较小。

其他说明

1、有序Logit回归的分析要求数据满足平行性检验,如果不满足,SPSSAU建议使用多分类Logti回归分析即可。

2、如果自变量个数非常多,建议用户可先进行卡方检验,筛选出P值小于0.05的自变量放入模型中。

登录SPSSAU官网体验在线数据分析​​​​

上一篇下一篇

猜你喜欢

热点阅读