HLA

seq2HLA:利用RNA_seq数据进行HLA分型

2021-08-18  本文已影响0人  马疾香幽_0702

原网址:https://cloud.tencent.com/developer/article/1626413

对于不同的HLA Allel来说,exon2和exon3 序列的差异性尤为明显,很多的HLA 分型软件都会根据这部分序列,整理出HLA Allel序列参考数据库

seq2HLA也采用了类似的策略,通过HLA不同Allel的exon2和exon3的序列,整理了一份HLA参考数据库,通过将RNA_seq的reads与该数据库比对,确定HLA分型结果,原理示意图如下

迭代两次,每次挑选出覆盖度最高的Allel 作为分型结果。

seq2HLA采用python和R进行开发,安装过程较为简单,直接下载源代码即可,安装过程如下

git clone https://github.com/TRON-Bioinformatics/seq2HLAcd seq2HLA/

用法如下:

python seq2HLA.py-1R1.fastq-2R2.fastq-r test-p10

-1和-2参数分别指定输入的R1和R2端的fastq格式的序列;-r参数指定输出文件名称的前缀,-p指定线程数,主要是bowtie比对时的线程。

输出文件非常多,详细列表如下

test.ambiguity

test-ClassI-class.bowtielog

test-ClassI-class.expression

test-ClassI-class.HLAgenotype2digits

test-ClassI-class.HLAgenotype4digits

test-ClassII.bowtielog

test-ClassII.expression

test-ClassII.HLAgenotype2digits

test-ClassII.HLAgenotype4digits

test-ClassI-nonclass.bowtielog

test-ClassI-nonclass.expression

test-ClassI-nonclass.HLAgenotype2digits

test-ClassI-nonclass.HLAgenotype4digits

我们主要关注后缀为HLAgenotype4digits的结果文件,可以看到,同时体用了HLA Clas I 和 Class II 两种类型基因的分型结果。以HLA I型基因的4位分型结果为例,文件内容如下

#Locus Allele1Confidence Allele2Confidence

A A*02:650.008687167A*02:65NA

B B*39:05'0.3821314B*13:480.09848174

C C*08:02' NA C*08:02NA

对于HlA  I型基因,给出了A, B, C 三个基因的分型结果,每个基因给出了两个Allel, 对于每个Allel, 会给出对应的打分值。

本文分享自微信公众号 - 生信修炼手册(shengxinxiulian),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

上一篇 下一篇

猜你喜欢

热点阅读