统计学 校准度和区分度

2020-02-26  本文已影响0人  cHarden13

校准度和区分度

discrimination:

在模型预测中,看能否找到一个截点,把患者和非患者正确区分开来,如果区分的越开,则与实际情况越吻合,提示模型区分度越好。通常用ROC、C-Statistics来度量(在Logistic回归模型中ROC曲线下面积=C-Statistics),当然NRI(Net reclassification improvement)和 IDI(integrated discrimination improvement)也是度量指标之一。
C-index/C-Statistics是concordance index,也叫做一致性指数。比如说有m个病人,预测A病人存活时间长于B病人,并且预测结果与实际情况一致,那么我们就称为这是一致的对子。c-index就是从m个病人中一致的对子的比例。所以c-index是0到1的数,当c-index是0.5的时候,表面预测相当于随机预测。
决策曲线分析 (Decision Curve Analysis )也是方法之一。

calibration:

评价模型预测值的大小和结局事件发生概率的大小是否一致,越接近则模型校准度越好。

以下展示4种情况:
1
2
3
最理想模型,可准确预测是否患病(0 or 100%)

对于一个疾病预测模型,应先考虑discrimination,如果模型区分度较差,不能区分不同风险人群,那么此模型就失去临床应用价值,再继续评价calibration也无意义了。
是否用NRI和IDI评估模型区分度?周支瑞:临床预测模型构建方法学系列文章汇总 (最新版)。

二.优化模型

逐步回归法
最佳子集法
回归系数的惩罚(lasso/ridge)

残差与逻辑回归的诊断

文献:Residuals and regression diagnostics: focusing on logistic regression

1.评估模型整体拟合情况

residualPlots画残差图

2.评估个别观察值

outlier离群值

在协变量中,有异常反应的观察值。比如说,年龄超过80岁且伴有循环衰竭和肾脏衰竭的患者非常容易死亡。那么具有上述特征的生存患者就是离群值。
离群值可能对模型拟合有重要影响,离群值可以用学生化残差进行检验。

leverage杠杆值

杠杆值是远离协变量模式(或回归因子空间)平均值的观察值。比如参加高考的学生多为17-20岁之间,那么76岁的应试者就具有较大的杠杆作用。杠杆值可以用帽子(cat)值来做统计描述,每一个观察值的帽子值都可以用car包中的hatvalues()获得。

influence影响值

如果某个值的删除对回归模型系数的估算会产生本质的改变,该观测值即被称为影响值。影响值可被认为是杠杆值和离群值的综合产物。库克距离是影响值的一种表示方法。

上一篇下一篇

猜你喜欢

热点阅读