生信

HISAT: 一款快速的低内存的基因组比对软件

2019-11-16  本文已影响0人  shenny_

HISAT: 一款快速的低内存的基因组比对软件

HISAT是一个高效的RNA序列比对软件。HISAT使用了基于Burrows-Wheeler transform 和 the Ferragina-Manzini (FM) index的索引组合,使用了两种类型的索引:基于全基因组区域的FM索引和局部的FM索引。与其他比对软件相比,HISAT具有速度快,准确率高等特点。HISAT支持不同长度的基因组序列,包括大于40亿碱基基因组。

HISAT算法设计

HISAT使用Bowtie2实现许多低一级的功能,比如FM index的构建和查询。HISAT使用了两种不同类型的索引:

对于人基因组,HISAT创建了~4800个局部FM索引,每个索引之间有1024bp的overlap,共覆盖约三十一碱基。

​ RNA-seq序列可能会跨越很大的区域(超过1M bp)。并且会跨越多个外显子。HISAT将包含这种现象的reads分成了三种类型:

  1. long-anchored reads: 两个外显子至少比对上16bp.

  2. intermediate-anchored reads:有一个外显子比对了8-15bp

  3. short-anchored reads: 有一个外显子仅比对1-7bp

image-20191116135549116.png

全局FM索引对于short-anchored reads比对很困难,而局部FM index在比对这类reads时有很大优势。在将reads比对到一段较长的区域中时,HISAT可以使用局部索引比对剩余的区域,而不是使用全局索引。

很多比对工具,大量的时间都消耗在这样的short-anchored reads和intermediate-anchored reads上(30%~60%),但是比对准确度或者成功率都不是很高,而HISAT在这一块很有优势。

与其他比对工具的速度和准确度比较

​ HISAT,HISATx1, HISATx2分别使用了不同的参数。HISATx1使用one-pass方法,HISATx2使用了two-pass方法。模拟数据是100-bp rads,包含20 million挑reads。下图是不同软件每分钟处理的reads数。从图上看,HISAT速度有明显优势。

image-20191116145345034.png

检测准确度方面,HISAT灵敏度达到了93%以上,而HISATx2更是达到了99%以上

image-20191116150602949.png

剪切位点精度方面,模拟数据包含87944个剪切位点,HISAT的灵敏度高达97.3%,并且精度也高达04.8%

image-20191116151054329.png

参考文献:

  1. HISAT: a fast spliced aligner with low memory requirements
上一篇下一篇

猜你喜欢

热点阅读