SPSS统计分析

Logistic回归三部曲(2)

2019-05-27  本文已影响8人  dming1024

上节教程主要讲的是Logistic回归分析前期的探索工作,接下来我们直接进入回归分析正题。打开之前保存的‘Logistic回归分析.sav’数据。

选择【分析】→【回归】→【二元Logistic回归】,进入【Logistic回归】界面:
1)‘status’导入【因变量】,各自变量导入【协变量】

2)设置方法:在【方法M】下拉菜单中,选择【转发:条件】,这样自变量就会有逐步纳入回归方程(上节在线性回归中,选择【输入】,这样所有的自变量就会全部强制纳入回归方程,在自变量过多时选择【转发:条件】建立模型更为妥当) 3)由于这次分析的过程中自变量既有计量资料,又有计数资料;对于计数资料需要设置【哑变量】,在【Logistic回归】菜单下,选择【分类】,将分类变量导入【分类协变量】,在【更改对比下】,将【参考类别】选择【第一个】,点击更改。这样做的效果在分析结果中会有体现。

4) 最后点击【确定】完成【Logistic回归】分析的步骤。

在【输出文档】中查看分析结果

image

表1【案例汇总表】对数据案例进行概述,分析中包括199例,缺失案例0,总计199例
表2【因变量编码】一般的我们把“发生”,“是”,“比较关心的事件”等赋值为1,把‘没发生’,‘无’,‘对比的事件’等赋值为0,这是数据分析过程中的一个好习惯
表3【分类变量编码】这个就是对多分类变量设置【哑变量】进行回归分析,比如【居住地区】变量下有3个分类变量,农村、乡镇、城市,需要设置两个哑变量,农村的参数编码是00,乡镇的参数编码是10,城市的参数编码是01,在回归分析的结果中,你会看到【居住地区】代表“农村”,【居住地区】(1)代表“乡镇”,【居住地区】(2)代表“城市”。

这part是回归分析起点,回归方程中仅有常量

表1【分类表】以现在建立的模型,预测患者是否发生癌症,只有50.3%的概率,也就是说预测的结果几乎靠猜。

表2 【方程中的变量】 即只有常量。

表3 【不在方程中的变量】所有自变量均不在方程中。

这part,是整个分析中最重要的part。主要做的是以status为因变量,采用剔除法对自变量进行逐步回归分析。

表1 【模型系数的综合检验】逐步进行回归的概述,这步不重要。

表2 【模型汇总】 在3步回归模型中,【Cox & Snell R方】和【Nagelkerke R方】的变化,越是接近于1,模型拟合的效果越好。

表3 【分类表】 在第1步回归分析中,预测癌症是否发生的正确率为80.4%;第2步回归分析后,预测癌症是否发生的正确率为92.0%;第3步回归分析后,预测癌症是否发生的正确率为95.0%;

表4 【方程中的变量】

a)在第1步回归分析中,纳入自变量为”miR145”,OR值130588.2(3972.04,4293328.99),miR145表达水平升高,是癌症发生的危险因素。表述成回归方程形式如下(P为癌症发生的概率):

Ln((P/(1-P))= 11.78*miR145-16.885

该模型预测癌症的正确率为80.4%

b)在第2步回归分析中,在纳入自变量“miR145”的基础上,纳入“miR21”,自变量“miR145” OR值691909.26(2299.20,208219952.8);“miR21” OR值11.278(845.42,7389376.75);miR145与miR21均是癌症发生的危险因素。表述成回归方程形式如下(P为癌症发生的概率):

Ln((P/(1-P)) = 13.447miR145+11.278miR21-35.787

该模型预测癌症的正确率为92.0%

c)在第3步回归分析中,在纳入自变量“miR145”与“miR21” 的基础上,纳入自变量“年龄”,发现除 miR145与miR21是癌症发生的危险因素外,年龄也是癌症发生的危险因素,即随着年龄的增高,疾病发生的风险升高。表述成回归方程形式如下(P为癌症发生的概率):

Ln(P/(1-P))= 16.712miR145+14.685miR21+0.449*年龄-70.434

该模型预测癌症的正确率为95.0%

至此,我们的Logistic回归分析基本讲述完了。那么如何评价我们模型的鲁棒性呢?下节将会引入ROC曲线,评价我们建立的回归模型。需要数据的童鞋,微信公众号后台回复 “Logistic回归数据”,获得数据下载链接后,可以自己在本地尝试练习。转自“医学统计园”微信公众号,欢迎扫描二维码关注


上一篇 下一篇

猜你喜欢

热点阅读