肿瘤新生抗原预测之 - NeoPredPipe
肿瘤新生抗原预测的软件有很多,今天测试了一下NeoPredPipe。其预测流程如下图,从VCF文件开始,需要自己提供HLA分型信息(可以用polysolver得到,见我之前的笔记https://www.jianshu.com/p/145b68654839)。利用ANNOVAR注释肿瘤突变,并用netMHCpan4.0预测表型和HLA分子的结合强度(binding affinity)。比较特别的是它接受同一肿瘤不同部位测序(multi-region sequencing)得到的VCF文件,从而可以得到肿瘤新生抗原的内部异质性。已经有相关研究证明考虑肿瘤内部异质性的新生抗原负荷(neoantigen load)可以更好的预测病人的生存,所以觉得该软件值得一试滴。
Screen Shot 2021-04-19 at 9.45.06 PM.png首先下载并安装软件,在usr_path.ini文件里设置dependent路径,主要用到的dependent是ANNOVAR和netMHCpan。
git clone https://github.com/MathOnco/NeoPredPipe.git
- 输入文件主要有两个, VCF和HLA分型。
1a. VCF文件
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT normal tumor
chr1 100182945 . G A . KEEP . GT:AD:BQ:DP:FA 0:43,0:.:43:0.0 0/1:36,4:.:40:0.1
chr1 10337 . C T . KEEP . GT:AD:BQ:DP:FA 0:40,0:.:40:0.0 0/1:25,4:.:29:0.14
chr1 11009024 . G A . KEEP . GT:AD:BQ:DP:FA 0:73,0:.:73:0.0 0/1:44,5:.:49:0.1
chr1 110735263 . G A . KEEP . GT:AD:BQ:DP:FA 0:214,0:.:214:0.0 0/1:181,7:.:188:0.04
chr1 11338852 . C T . KEEP . GT:AD:BQ:DP:FA 0:20,0:.:20:0.0 0/1:25,4:.:29:0.14
chr1 116206896 . G A . KEEP . GT:AD:BQ:DP:FA 0:48,0:.:48:0.0 0/1:31,4:.:35:0.11
chr1 121354274 . T C . KEEP . GT:AD:BQ:DP:FA 0:26,0:.:26:0.0 0/1:22,4:.:26:0.15
chr1 121483361 . T G . KEEP . GT:AD:BQ:DP:FA 0:35,0:.:35:0.0 0/1:49,4:.:53:0.08
chr1 12248758 . A G . KEEP . GT:AD:BQ:DP:FA 0:54,0:.:54:0.0 0/1:43,3:.:46:0.07
1b. HLA分型文件,注意如果homozygous的情况另一个allele要写NA。
Patient HLA-A_1 HLA-A_2 HLA-B_1 HLA-B_2 HLA-C_1 HLA-C_2
pt1 hla_a_02_07 hla_a_03_01 hla_b_40_01 hla_b_51_01 hla_c_03_04 hla_c_07_02
然后就可以运行了!注意参数-c代表的是VCF文件中代表tumor FORMAT信息的列,在我的示例里面用1表示。
python NeoPredPipe.py -I ./pt1_vcf/ -H ./pt1/hla.txt -o ./pt1_out/ -n pt1 -c 1 -E 8 9 10 11 12
有四个结果文件:
pt1.neoantigens.Indels.summarytable.txt
pt1.neoantigens.Indels.txt
pt1.neoantigens.summarytable.txt
pt1.neoantigens.txt
最主要的文件是pt1.neoantigens.txt,是一个大表,我截取主要的列展示如下。表型和HLA分型的结合强度看最后三列,SB(strong binder)指排位在0.5%以内,WB(weak binder)指排位在2%以内的表型,更具体的信息参见netMHCpan官网(http://www.cbs.dtu.dk/services/NetMHCpan/output.php)。
Screen Shot 2021-04-16 at 12.01.32 PM.png也跑了软件自带的测试数据来看一下multi region的结果。可以看到有两个sample,test1和test2,各有两个region,region0 和 region1。当某个新生抗原存在于所有region时为clonal,反之为sub clonal。
最后提一下该软件的小缺点,就是某些类型的突变还不能预测,比如stoploss等。
Screen Shot 2021-04-19 at 11.38.28 PM.pngReference:
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2876-4#Bib1
https://github.com/MathOnco/NeoPredPipe