数据分析之Cox回归
业精于勤,荒于嬉。在寒假放松之余,我们也要抽出时间去学习,今天我们要学习的是数据分析中的Cox回归;在公共卫生和医学研究中,观察对象生存时间长短往往受到多个因素的影响。例如,研究肿瘤患者生存时间与治疗措施的关系,患者生存时间不仅与治疗措施有关 ,还受病人的年龄、病情 、心理、环境等因素 的影响。由于生存数据的分布往往不服从正态分布(大多为正偏态分布 ,有时甚至不知道它的分布类型 ,这就不能采用多重线性回归方法进行分析,今天介绍的 Cox 比例风险回归模型(Cox proportional hazard model) , 简称 Cox 回归模型, 可以分析多个因素对生存时间的影响 , 而且允许有删失数据的存在,这是生存分析中的最重要的多因素分析方法。
Cox回归模型
Cox回归是由1972年英国生物统计学家D. R Cox提出 在基准风险率函数未知的情况下估计模型参数的方法,该估计方法被称为Cox比例风险回归模型, 简称Cox回归。在使用Cox回归模型之前须满足两个前提假设:1.各危险因素的作用大小不随时间变化而变化;2.各危险因素之间不存在交互作用。除了这两个前提条件我们还需要注意样本的数量不能太小,一般要求为变量个数的5~20倍。
01
操作步骤
分析-生存分析-Cox回归
接下来进入选择变量界面。
分类则是打开一个分类协变量的对话框。
接下来就是绘图,对于单线的意思就是选入一个分类协变量作图时用它作为分线变量作图加变量取值加数据分为几组,对各组分别作一条曲线。
02
结果解读
主要的操作流程讲完了,接下来就让我们对结果进行解读。
通过向后逐步回归法我们可以看到,第2、3、4、5步的显著性大于0.05,说明我们把这些变量从模型中剔除是合理的。
接下来我们能看到方程中的变量以及各步骤剔除变量的显著性,这是我们向后逐步检验法系数检验的结果,我们可以看到各个变量的系数的wald统计量对应的显著性。
函数方面我们主要看到模式1-2的生存函数以及风险函数,在这里我们可以比对出例如两种治疗方法的存活率以及风险的结果。
关于Cox回归的学习到这里就结束了,接下来我们还会带来更多的的关于数据分析的内容,请持续关注哟。
END
文 | 土豆焖鸡