HLA分型

opitype:对HLA I型基因进行4位分型

2018-08-29  本文已影响2人  生信修炼手册

欢迎关注"生信修炼手册"

HLAminer软件可以同时对HlA I型基因和II 型基因进行分型,但是分型结果中不可避免的会存在假阳性的结果。为了提高分型结果的准确性,不同的研究团队都在开发新的工具和算法,Opitype是一款专门针对HLA I型基因进行分型的软件,可以提供精确的4位分型结果。

利用测试数据集,与HLAminer, HLAForest 等软件进行比较,结果如下

从图中可以看到,不论是基因组的数据,还是转录组的数据,opitype提供的4位分型结果的准确率都高于HLAminer和HLAforest。

github 地址如下:

https://github.com/FRED-2/OptiType

如果从源代码进行安装,费时费力,所以官方提供了docker 镜像,直接安装docker 镜像就可以了,代码如下

docker pull fred2/optitype

opitype的使用分成以下两步:

1.  采用 razers3 比对参考序列数据库

razers是一款比对工具,可以从原始的测序数据中筛选出属于HLA基因的reads。opitype利用HLA I型基因exon2到exon3的DNA序列构建了一个参考数据库,如果reads能够比对到这个参考数据库,认为这些reads来自与HLA基因。
用法如下

docker run -v /home:/home  --entrypoint="razers3" fred2/optitype -i 95 -m 1 -dr 0  -o /home/R1.bam  /home/OptiType/data/hla_reference_dna.fasta /home/R1.fastq
docker run -v /home:/home  --entrypoint="razers3" fred2/optitype -i 95 -m 1 -dr 0  -o /home/R2.bam  /home/OptiType/data/hla_reference_dna.fasta /home/R2.fastq

这里需要注意docker镜像用法,一定要添加entrypoint参数,指定运行的程序为razers3; 如果不指定这个参数,容器默认运行OptiTypePipeline.py

比对会生成一个bam文件,在这个bam文件中,只保存了比对上的序列,直接利用samtools挑选出比对上的reads就可以了,用法如下

samtools fastq R1.bam > R1_fished.fastq
samtools fastq R2.bam > R2_fished.fastq

由于生成的bam文件第二列的flag的值都为0,没有实际意义,所以不论是单端测序还是双端测序的数据, 都只能对fastq文件单独处理。

2. 进行基因分型

调用OptiTypePipeline.py进行基因分型,用法如下

docker run -v /home:/home fred2/optitype   -i /home/R1_fished.fastq  /home/R2_fished.fastq --dna -v -o /home/test/

在结果目录会生成如下两个文件:

├── 2018_07_19_02_29_14_coverage_plot.pdf
└── 2018_07_19_02_29_14_result.tsv

文件名前的日期是当前日期,后缀分别为pdftsv。PDF文件示意如下


描述了每个Allel的比对情况。TSV文件的内容如下

A1 A2 B1 B2 C1 C2 Reads Objective
A*01:01 A*01:01 B*08:01 B*57:01 C*07:01 C*06:02 1156.0 1135.192

保存的是分型结果,由于人是二倍体,所以每个基因会给出两个Allel的结果。

扫描关注微信号,更多精彩内容等着你!

上一篇下一篇

猜你喜欢

热点阅读