Logistic回归三部曲（2）

2019-05-27 本文已影响8人 dming1024

上节教程主要讲的是Logistic回归分析前期的探索工作，接下来我们直接进入回归分析正题。打开之前保存的‘Logistic回归分析.sav’数据。

选择【分析】→【回归】→【二元Logistic回归】，进入【Logistic回归】界面：
1）‘status’导入【因变量】，各自变量导入【协变量】

2）设置方法：在【方法M】下拉菜单中，选择【转发：条件】，这样自变量就会有逐步纳入回归方程（上节在线性回归中，选择【输入】，这样所有的自变量就会全部强制纳入回归方程，在自变量过多时选择【转发：条件】建立模型更为妥当）

3）由于这次分析的过程中自变量既有计量资料，又有计数资料；对于计数资料需要设置【哑变量】，在【Logistic回归】菜单下，选择【分类】，将分类变量导入【分类协变量】，在【更改对比下】，将【参考类别】选择【第一个】，点击更改。这样做的效果在分析结果中会有体现。

4）最后点击【确定】完成【Logistic回归】分析的步骤。

在【输出文档】中查看分析结果

image

表1【案例汇总表】对数据案例进行概述，分析中包括199例，缺失案例0，总计199例
表2【因变量编码】一般的我们把“发生”，“是”，“比较关心的事件”等赋值为1，把‘没发生’，‘无’，‘对比的事件’等赋值为0，这是数据分析过程中的一个好习惯
表3【分类变量编码】这个就是对多分类变量设置【哑变量】进行回归分析，比如【居住地区】变量下有3个分类变量，农村、乡镇、城市，需要设置两个哑变量，农村的参数编码是00，乡镇的参数编码是10，城市的参数编码是01，在回归分析的结果中，你会看到【居住地区】代表“农村”，【居住地区】（1）代表“乡镇”，【居住地区】（2）代表“城市”。

这part是回归分析起点，回归方程中仅有常量

表1【分类表】以现在建立的模型，预测患者是否发生癌症，只有50.3%的概率，也就是说预测的结果几乎靠猜。

表2 【方程中的变量】即只有常量。

表3 【不在方程中的变量】所有自变量均不在方程中。

这part，是整个分析中最重要的part。主要做的是以status为因变量，采用剔除法对自变量进行逐步回归分析。

表1 【模型系数的综合检验】逐步进行回归的概述，这步不重要。

表2 【模型汇总】在3步回归模型中，【Cox & Snell R方】和【Nagelkerke R方】的变化，越是接近于1，模型拟合的效果越好。

表3 【分类表】在第1步回归分析中，预测癌症是否发生的正确率为80.4%；第2步回归分析后，预测癌症是否发生的正确率为92.0%；第3步回归分析后，预测癌症是否发生的正确率为95.0%；

表4 【方程中的变量】

a)在第1步回归分析中，纳入自变量为”miR145”，OR值130588.2（3972.04，4293328.99），miR145表达水平升高，是癌症发生的危险因素。表述成回归方程形式如下(P为癌症发生的概率)：

Ln((P/(1-P))= 11.78*miR145-16.885

该模型预测癌症的正确率为80.4%

b)在第2步回归分析中，在纳入自变量“miR145”的基础上，纳入“miR21”，自变量“miR145” OR值691909.26（2299.20,208219952.8）；“miR21” OR值11.278（845.42,7389376.75）；miR145与miR21均是癌症发生的危险因素。表述成回归方程形式如下(P为癌症发生的概率)：

Ln((P/(1-P)) = 13.447miR145+11.278miR21-35.787

该模型预测癌症的正确率为92.0%

c)在第3步回归分析中，在纳入自变量“miR145”与“miR21” 的基础上，纳入自变量“年龄”，发现除 miR145与miR21是癌症发生的危险因素外，年龄也是癌症发生的危险因素，即随着年龄的增高，疾病发生的风险升高。表述成回归方程形式如下(P为癌症发生的概率)：

Ln(P/(1-P))= 16.712miR145+14.685miR21+0.449*年龄-70.434

该模型预测癌症的正确率为95.0%

至此，我们的Logistic回归分析基本讲述完了。那么如何评价我们模型的鲁棒性呢？下节将会引入ROC曲线，评价我们建立的回归模型。需要数据的童鞋，微信公众号后台回复 “Logistic回归数据”，获得数据下载链接后，可以自己在本地尝试练习。转自“医学统计园”微信公众号，欢迎扫描二维码关注

Logistic回归三部曲（2）

猜你喜欢

热点阅读