临床生信文章普遍存在的两个统计问题

2022-03-18 本文已影响0人戴钢盔的熊

临床预后模型，大多包含风险分层和独立预后分析两个验证分析，而很多文章在两个分析上存在不严谨。下面介绍一些分析的关键点。

1. 风险分层与cutoff

一般而言，预后模型会有训练集和验证集，有一些还分为了训练集、验证集和测试集。首先，在有多个数据集的情况下，对于表达谱数据，需要进行批次校正；其次，如果仅有训练集和验证集（两个独立队列），cutoff不必保证相同，而如果有训练集、验证集和测试集（其中训练集和验证集是一个队列的拆分），训练集和验证集的cutoff需要保持一致，测试集的cutoff不强求。

2. 独立预后分析

(1) PH假定

很多文章都会在构建了prognostic scoring system的基础上，将临床病理性状纳入做单因素和多因素回归，也就是独立预后分析，有的还会基于多因素Cox模型构建nomogram，但事实是大多数文章的结果不可靠。我们知道Cox回归需要满足PH假定，而对PH假定的检验主要有LML曲线法、KM曲线法和Schoenfeld's 检验法。
对于分类数据，如性别、病理分级、组织学分期、有无突变等等，用LML曲线法和KM曲线法检验，若曲线互不相交、互相分离，则一般认为满足PH假定，可以纳入Cox模型；对于连续型变量，如年龄、构建的评分系统、肿瘤大小等等，最好使用三种方法都进行检验，其中Schoenfeld's 检验的p值需要>0.05，若p<0.05，则纳入该因素的结果是不可靠的。

如果想探索的因素不满足PH假定怎么办？

网上有一些解决办法，如分层回归和时依回归，但这两种方法操作起来相对困难且结果不易解释。有一种比较简单的方法大家可以试一试，但仅针对于连续变量。可以将连续变量变为分类数据，如年龄分为>60和<=60岁，risk score分为高低风险组，此时再用LML和KM检验法进行验证。如果对于分类变量还不满足PH假定，那只能考虑剔除这个因素或者进行分层/时依回归了。

(2) 等级变量

对于分期、分级这样的等级变量，很多文章直接将数据变为0、1、2、3等，这是严谨的。应该将该变量设置成哑变量，设置其中一个哑变量为参考组 (reference)，在数据科学中，称作热编码 (one-hot encoding)。

虽然以上分析比“不严谨”的方法操作起来多了一些步骤，但一旦被审稿人抓到把柄，返修起来将更加繁琐，所以还是一次做到位吧！