RNA Seq流程HLA分型

seq2HLA:利用RNA_seq数据进行HLA分型

2018-08-29  本文已影响1人  生信修炼手册

欢迎关注"生信修炼手册"

对于不同的HLA Allel来说,exon2和exon3 序列的差异性尤为明显,很多的HLA 分型软件都会根据这部分序列,整理出HLA Allel序列参考数据库。


seq2HLA也采用了类似的策略,通过HLA不同Allel的exon2和exon3的序列,整理了一份HLA参考数据库,通过将RNA_seq的reads与该数据库比对,确定HLA分型结果,原理示意图如下

迭代两次,每次挑选出覆盖度最高的Allel 作为分型结果。

seq2HLA采用python和R进行开发,安装过程较为简单,直接下载源代码即可,安装过程如下

git clone https://github.com/TRON-Bioinformatics/seq2HLA
cd seq2HLA/

用法如下:

python seq2HLA.py -1 R1.fastq -2 R2.fastq -r test -p 10

-1-2参数分别指定输入的R1和R2端的fastq格式的序列; -r参数指定输出文件名称的前缀,-p指定线程数,主要是bowtie比对时的线程。

输出文件非常多,详细列表如下

test.ambiguity
test-ClassI-class.bowtielog
test-ClassI-class.expression
test-ClassI-class.HLAgenotype2digits
test-ClassI-class.HLAgenotype4digits
test-ClassII.bowtielog
test-ClassII.expression
test-ClassII.HLAgenotype2digits
test-ClassII.HLAgenotype4digits
test-ClassI-nonclass.bowtielog
test-ClassI-nonclass.expression
test-ClassI-nonclass.HLAgenotype2digits
test-ClassI-nonclass.HLAgenotype4digits

我们主要关注后缀为HLAgenotype4digits的结果文件,可以看到,同时体用了HLA Clas I 和 Class II 两种类型基因的分型结果。以HLA I型基因的4位分型结果为例,文件内容如下

#Locus Allele 1 Confidence Allele 2 Confidence
A A*02:65 0.008687167 A*02:65 NA
B B*39:05' 0.3821314 B*13:48 0.09848174
C C*08:02' NA C*08:02 NA

对于HlA  I型基因,给出了A, B, C 三个基因的分型结果,每个基因给出了两个Allel, 对于每个Allel, 会给出对应的打分值。

扫描关注微信号,更多精彩内容等着你!

上一篇下一篇

猜你喜欢

热点阅读