TCGA数据分析全基因组/外显子组测序分析

肿瘤新生抗原预测软件和参数选择

2020-03-06  本文已影响0人  yangliunk1987

癌症疫苗靶向肿瘤细胞的抗原可以大致分为两类:肿瘤相关性抗原(tumor-associatied self-antigen)以及肿瘤特异性抗原(tumor-specific antigen)。前者指的是在正常体细胞中也存在,但肿瘤细胞中异常高表达的抗原;后者指的是因肿瘤特异性突变而产生的新抗原/新表位(neoantigen/neoepitope)。新抗原相比肿瘤相关性抗原拥有更强的特异性因此副作用更低,并且不受限于胸腺的中枢耐受。通过高通量测序可以获取大量的肿瘤特异性突变,基于这些突变预测新抗原在癌症的个性化免疫治疗方面有很广阔的应用前景。

I类主要组织相容性复合体(MHC class I)抗原的处理和呈递过程:

MHC-I 抗原呈递途径 (Neefjes J et al., 2011)

生物信息学预测肿瘤新抗原的方法

目前通过生物信息学方法预测新抗原主要是关注于蛋白酶体对突变蛋白的剪切的预测、肽段转运、以及突变肽段和MHC-I结合的亲和力预测等方面。相关的分析工具非常多,比如:

阈值设定方面通常将半最大抑制浓度IC50 ≤ 50nM作为“强亲和力阈值”,IC50 ≤ 500nM作为“中等亲和力阈值”,IC50 ≤ 5000nM作为“低亲和力阈值”。但Bassani-Sternberg等的研究通过比较质谱数据和预测的HLA结合亲和力进行比较发现,常用的IC50 ≤ 500nM的亲和力阈值对于一些HLA类型来说过于严格。那这么多不同的算法应该如何选择,又如何确定阈值呢?

如何选择软件和参数

最近发表在Cancer Immunology Research上的一篇文章《Performance Evaluation of MHC Class-I Binding Prediction Tools Based on an Experimentally Validated MHC–Peptide Binding Data Set》使用了独立任何一个算法训练集的MHC亲和力数据集对13种预测肿瘤新抗原的算法以及参数进行了综合性评估。
受测算法包括NetMHC 4.0、NetMHC 3.4、NetMHCpan 4.0、NetMHCpan 3.0、NetMHCpan 2.8、MHCflurry 1.2、PickPocket 1.1、IEDB SMM、、IEDB SMMPMBEC,以及SYFPEITHI。(其中SYFPEITHI对大多数HLA类型只能预测9和10aa肽段,11aa肽段只能适用于HLA-A1,并且该软件还不能预测HLA-B15,因此没重点在正文中讨论。)
不同算法效果通过计算ROC曲线以及曲线下面积(即AUC)进行评估;推荐参数的确定则依据如下标准:(1)FPR≤0.33(2)TPR≥2*FPR(3)保证前两条的基础上最高sensitivity(FPR)。FPR(sensitivity)和TPR的计算方法可以看我之前写一篇文章《如何去除二代测序数据中的PCR duplication才科学?》。

1. 算法的选择

通过分析发现,当考虑所有长度的肽段(pooled lengths),受测的算法都显示出相近的预测性能。但对于不同长度的肽段和HLA类型,这些算法的预测性能差异较大:

各肿瘤新抗原预测算法ROC AUC
总的来说基于人工神经网络的pan-specific算法拥有最好的预测性能,NetMHC系列的软件总在效果最好的几个算法之列;相比之下IEDB SMM和IEDB SMMPMBEC则总是在较差的算法中。最新的两种算法NetMHCpan 4.0和MHCflurry 1.2并不能和其他算法拉开较大差距,并且也没有某种算法的表现能够脱颖而出。因此作者推荐:总是根据HLA类型和肽段长度选择最合适的算法

2. 参数的选择

文章评估了强亲和力、中等亲和力、低亲和力阈值下各算法accuracy的表现。和上文类似:不同长度肽段混合时各算法预测的accuracy近似,而当不同长度肽段分开评估时表现差异较大。总体上看,强亲和力阈值accuracy表现更稳定,但同时最低;中等亲和力阈值在混合长度肽段中的accuracy稍微高一些,在某些长度肽段的预测中有非常高的accuracy,但并未展示出长度特异性而是HLA类型特异性;低亲和力阈值下不同算法间差异最大,并在不同类型HLA中表现不稳定。

各肿瘤新抗原预测算法常用亲和力阈值的accuracy评估
此外因为accuracy=(TP+TN)/(P+N),因此如果TN够高也可以使得accuracy很高,因此文章还用sensitivity和specificity进行了评估。总的来说,使用常用的亲和力阈值,sensitivity结果不太理想。
各肿瘤新抗原预测算法常用亲和力阈值的sensitivity和specificity评估
虽然在很多研究中希望找到尽可能多的HLA结合肽段,降低阈值的严格程度以提高sensitivity似乎是个不错的选择,但是该研究却发现使用低亲和力阈值并不一定都能得到不错的sensitivity。使用上文提到的3条选择最佳参数的标准进行分析后发现,对于AUC更高的算法,推荐的阈值经常比低亲和力阈值更宽松(IC50 > 5000nM);而对于表现差的算法,推荐的阈值经常在中等和低亲和力阈值之间(500nM < IC50 < 5000nM)。
为了选出一个对任何数据集都可用的推荐阈值,该研究基于上述3条标准对每个HLA类型和每个算法都进行了resampling。并以100次取样计算的推荐阈值的中位数作为“验证阈值”(validated threshold)。然后将验证阈值的sensitivity、specificity、accuracy和低亲和力、中等亲和力阈值通过第二轮resampling进行比较。简单来说就是第一轮确定验证阈值,第二轮比较验证阈值和两种常用阈值的表现。部分HLA类型中,大多数算法使用推荐阈值相比低亲和力阈值的sensitivity显著提高了。在所有HLA类型中,虽然对于部分算法,使用推荐阈值的sensitivity可能有所下降,但是相应的specificity提高更多,最终accuracy的表现也有所提高或没有显著差异或者略微下降
各肿瘤新抗原预测算法推荐亲和力阈值分析
此外改研究还将直接根据3条标准选出的推荐阈值和通过resampling得到的验证阈值进行比较,阈值本身和对应的accuracy基本没有明显差异。使用该标准选出的推荐阈值,增加了真阳性的比例。

3. MHCcombine

作者开发了一个预测MHC-I结合的网页应用——MHCcombine,可以一站式执行文章中除了MHCflurry以外的12个算法:

http://mhccombine.dkfz.de/mhccombine/

4. 一些不足

参考文献

Neefjes J, Jongsma M L M, Paul P, et al. Towards a systems understanding of MHC class I and MHC class II antigen presentation[J]. Nature Reviews Immunology, 2011, 11(12): 823.
The problem with neoantigen prediction. Nat. Biotechnol. 35, 97 (2017).
Jurtz V, Paul S, Andreatta M, et al. NetMHCpan-4.0: Improved peptide–MHC class I interaction predictions integrating eluted ligand and peptide binding affinity data[J]. The Journal of Immunology, 2017, 199(9): 3360-3368.
Bonsack M, Hoppe S, Winter J, et al. Performance Evaluation of MHC Class-I Binding Prediction Tools Based on an Experimentally Validated MHC–Peptide Binding Data Set[J]. Cancer immunology research, 2019, 7(5): 719-736.

上一篇 下一篇

猜你喜欢

热点阅读