Logistic回归三部曲(2)
上节教程主要讲的是Logistic回归分析前期的探索工作,接下来我们直接进入回归分析正题。打开之前保存的‘Logistic回归分析.sav’数据。
选择【分析】→【回归】→【二元Logistic回归】,进入【Logistic回归】界面:
1)‘status’导入【因变量】,各自变量导入【协变量】
4) 最后点击【确定】完成【Logistic回归】分析的步骤。
在【输出文档】中查看分析结果
image表1【案例汇总表】对数据案例进行概述,分析中包括199例,缺失案例0,总计199例
表2【因变量编码】一般的我们把“发生”,“是”,“比较关心的事件”等赋值为1,把‘没发生’,‘无’,‘对比的事件’等赋值为0,这是数据分析过程中的一个好习惯
表3【分类变量编码】这个就是对多分类变量设置【哑变量】进行回归分析,比如【居住地区】变量下有3个分类变量,农村、乡镇、城市,需要设置两个哑变量,农村的参数编码是00,乡镇的参数编码是10,城市的参数编码是01,在回归分析的结果中,你会看到【居住地区】代表“农村”,【居住地区】(1)代表“乡镇”,【居住地区】(2)代表“城市”。
这part是回归分析起点,回归方程中仅有常量
表1【分类表】以现在建立的模型,预测患者是否发生癌症,只有50.3%的概率,也就是说预测的结果几乎靠猜。
表2 【方程中的变量】 即只有常量。
表3 【不在方程中的变量】所有自变量均不在方程中。
这part,是整个分析中最重要的part。主要做的是以status为因变量,采用剔除法对自变量进行逐步回归分析。
表1 【模型系数的综合检验】逐步进行回归的概述,这步不重要。
表2 【模型汇总】 在3步回归模型中,【Cox & Snell R方】和【Nagelkerke R方】的变化,越是接近于1,模型拟合的效果越好。
表3 【分类表】 在第1步回归分析中,预测癌症是否发生的正确率为80.4%;第2步回归分析后,预测癌症是否发生的正确率为92.0%;第3步回归分析后,预测癌症是否发生的正确率为95.0%;
表4 【方程中的变量】
a)在第1步回归分析中,纳入自变量为”miR145”,OR值130588.2(3972.04,4293328.99),miR145表达水平升高,是癌症发生的危险因素。表述成回归方程形式如下(P为癌症发生的概率):
Ln((P/(1-P))= 11.78*miR145-16.885
该模型预测癌症的正确率为80.4%
b)在第2步回归分析中,在纳入自变量“miR145”的基础上,纳入“miR21”,自变量“miR145” OR值691909.26(2299.20,208219952.8);“miR21” OR值11.278(845.42,7389376.75);miR145与miR21均是癌症发生的危险因素。表述成回归方程形式如下(P为癌症发生的概率):
Ln((P/(1-P)) = 13.447miR145+11.278miR21-35.787
该模型预测癌症的正确率为92.0%
c)在第3步回归分析中,在纳入自变量“miR145”与“miR21” 的基础上,纳入自变量“年龄”,发现除 miR145与miR21是癌症发生的危险因素外,年龄也是癌症发生的危险因素,即随着年龄的增高,疾病发生的风险升高。表述成回归方程形式如下(P为癌症发生的概率):
Ln(P/(1-P))= 16.712miR145+14.685miR21+0.449*年龄-70.434
该模型预测癌症的正确率为95.0%
至此,我们的Logistic回归分析基本讲述完了。那么如何评价我们模型的鲁棒性呢?下节将会引入ROC曲线,评价我们建立的回归模型。需要数据的童鞋,微信公众号后台回复 “Logistic回归数据”,获得数据下载链接后,可以自己在本地尝试练习。转自“医学统计园”微信公众号,欢迎扫描二维码关注