模型不如意十之八九,可拿出手无二三

2020-09-22  本文已影响0人  小洁忘了怎么分身

今天又来开放性讨论啦。
最近做了一个TCGA的数据分析,走到最后多因素cox模型构建这一步了,选择了三个基因,对数据集划分了高低风险,C-index值和timeROC计算的AUC值都还看得过去,but,就训练集的高低风险KM-plot出现了如此哭笑不得的交叉?(连测试机都没交叉,怎么训练集还叉上了)

疾病是乳腺癌,横坐标是月

我发朋友圈问研究肿瘤的医学生们,模型成这种情况,是否可以使用?没想到这个问题很多人感触颇深,戳中了痛点:怎么看自己的模型,都是歪瓜裂枣,要么C-index值不够美丽,要么AUC值凄凄惨惨,要么就不稳定,训练集壮得像头牛,跑到测试集立刻痛哭流涕。

还有人晒出了寄几的同款图


以及已发表文章里那蜿蜒曲折的交叉???


看来我提的还是一个比较痛点的问题吧,在朋友圈和几个群里发出去,有幸收到了三五十条回复,我把讨论结果跟大家分享一下,总共有以下几个观点:

  1. 可以使用,因为p值小于0.05,并且趋势是对的。
  2. 不能使用km plot,因为出现了交叉,不适合使用km plot。
  3. 交叉点在100个月以后,所以可以只讨论5年内或者8年内的,不考虑生存时间超长的那些病人(建模时去掉他们)。
  4. 可以分段讨论,说明一下为什么出现了交叉,我看到比较有说服力的理由是,可能因为过了100个月后,样本的数量太少,导致比例变化大,不具有代表性了。

还想问一下,这一张,一小点的交叉,是否可能会被卡呢,要如何解释一下才好?

疾病是乳腺癌,横坐标是月

我来发个投票和讨论,欢迎并感谢大家发表自己的见解~

上一篇下一篇

猜你喜欢

热点阅读