seq2HLA:利用RNA_seq数据进行HLA分型
2021-08-18 本文已影响0人
马疾香幽_0702
原网址:https://cloud.tencent.com/developer/article/1626413
对于不同的HLA Allel来说,exon2和exon3 序列的差异性尤为明显,很多的HLA 分型软件都会根据这部分序列,整理出HLA Allel序列参考数据库。

seq2HLA也采用了类似的策略,通过HLA不同Allel的exon2和exon3的序列,整理了一份HLA参考数据库,通过将RNA_seq的reads与该数据库比对,确定HLA分型结果,原理示意图如下

迭代两次,每次挑选出覆盖度最高的Allel 作为分型结果。
seq2HLA采用python和R进行开发,安装过程较为简单,直接下载源代码即可,安装过程如下
git clone https://github.com/TRON-Bioinformatics/seq2HLAcd seq2HLA/
用法如下:
python seq2HLA.py-1R1.fastq-2R2.fastq-r test-p10
-1和-2参数分别指定输入的R1和R2端的fastq格式的序列;-r参数指定输出文件名称的前缀,-p指定线程数,主要是bowtie比对时的线程。
输出文件非常多,详细列表如下
test.ambiguity
test-ClassI-class.bowtielog
test-ClassI-class.expression
test-ClassI-class.HLAgenotype2digits
test-ClassI-class.HLAgenotype4digits
test-ClassII.bowtielog
test-ClassII.expression
test-ClassII.HLAgenotype2digits
test-ClassII.HLAgenotype4digits
test-ClassI-nonclass.bowtielog
test-ClassI-nonclass.expression
test-ClassI-nonclass.HLAgenotype2digits
test-ClassI-nonclass.HLAgenotype4digits
我们主要关注后缀为HLAgenotype4digits的结果文件,可以看到,同时体用了HLA Clas I 和 Class II 两种类型基因的分型结果。以HLA I型基因的4位分型结果为例,文件内容如下
#Locus Allele1Confidence Allele2Confidence
A A*02:650.008687167A*02:65NA
B B*39:05'0.3821314B*13:480.09848174
C C*08:02' NA C*08:02NA
对于HlA I型基因,给出了A, B, C 三个基因的分型结果,每个基因给出了两个Allel, 对于每个Allel, 会给出对应的打分值。
本文分享自微信公众号 - 生信修炼手册(shengxinxiulian),作者:lzyg
原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。
原始发表时间:2018-07-20
本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。