RNA-seq | 比对软件HISAT

2023-03-29 本文已影响0人 iBioinformatics

HISAT全称为Hierarchical Indexing for Spliced Alignment of Transcripts，由约翰霍普金斯大学开发。它取代Bowtie/TopHat程序，能够将RNA-Seq的读取与基因组进行快速比对。这项成果发表在3月9日的《Nature Methods》上。

HISAT利用大量FM索引，以覆盖整个基因组。以人类基因组为例，它需要48,000个索引，每个索引代表~64,000 bp的基因组区域。这些小的索引结合几种比对策略，实现了RNA-Seq读取的高效比对，特别是那些跨越多个外显子的读取。尽管它利用大量索引，但HISAT只需要4.3 GB的内存。这种应用程序支持任何规模的基因组，包括那些超过40亿个碱基的。

HISAT 软件可从以下地址获取：http://ccb.jhu.edu/software/hisat/index.shtml。下载后直接解压即可使用啦。

当然这个软件本身也有着详尽的说明书：http://ccb.jhu.edu/software/hisat/manual.shtml

然后就是准备数据，它跟tophat一样的功能。就是把用RNA-seq方法测序得到的fastq文件比对到参考基因组上面，所以就准这两个文件了哦

接下来是运行程序！

说明书上面写着分成两个步骤，构建索引和比对。

1. 构建索引

构建索引的命令如上，跟bowtie一样我修改了一下

$HISAT_HOME/hisat-build      22_20-21M.fa       my_hisat_index

可以看到我们的这个参考fasta文件 22_20-21M.fa 就变成索引文件啦，索引还是很多的！

2. 比对

hisat -x  my_hisat_index -U ../reads/reads_1.fq  -S reads1.sam

1000 reads; of these:
1000 (100.00%) were unpaired; of these:
0 (0.00%) aligned 0 times
1000 (100.00%) aligned exactly 1 time
0 (0.00%) aligned >1 times
100.00% overall alignment rate

实际的例子

首先，小鼠基因组构建了索引

hisat-build  Mus_musculus.GRCm38.fa.fa mouse_hisat_index

然后对我的四个测序文件进行比对。

for i in *fq
do hisat  -x  mouse_hisat_index  \
-p 30 -U  $i.trimmed.single  -S ./hisat_out/${i%.*}.sam

done

它运行的速度的确要比tophat快好多，太可怕的速度！！！！至于是否多消耗了内存我就没有看了

4.6G的小鼠，5G的测序数据，我只用了五个核，居然十分钟就跑完了！

然后听群友说是因为没有加 --known-splicesite-infile <path>这个参数的原因，没有用gtf文件来指导我们的RNA数据的比对，这样是不对的！

需要用下面这个脚本把gtf文件处理一下，然后导入什么那个参数来指导RNA比对。

extract_splice_sites.py genes.gtf > splicesites.txt

但是我报错了，错误很奇怪，没解决，但是我换了个 extract_splice_sites.py 程序，就可以运行啦！之前是HISAT 0.1.5-beta release 2/25/2015里面的python程序，后来我换做了github里面的就可以啦！

/home/jmzeng/hoston/RNA-soft/hisat-master/extract_splice_sites.py Mus_musculus.GRCm38.79.gtf >mouse_splicesites.txt

[图片上传失败...(image-3d3405-1678160898616)]

21192819 reads; of these:
21192819 (100.00%) were unpaired; of these:
14236834 (67.18%) aligned 0 times
5437800 (25.66%) aligned exactly 1 time
1518185 (7.16%) aligned >1 times

感觉没有变化，不知道为什么？

21192819 reads; of these:

21192819 (100.00%) were unpaired; of these:

14236838 (67.18%) aligned 0 times

5437793 (25.66%) aligned exactly 1 time

1518188 (7.16%) aligned >1 times

32.82% overall alignment rate

发表这个软件的文献本身也把这个软件跟其它软件做了详尽的对比

http://www.nature.com/nmeth/journal/v12/n4/full/nmeth.3317.html

参考：http://www.plob.org/2015/03/20/8980.html

http://nextgenseek.com/2015/03/hisat-a-fast-and-memory-lean-rna-seq-aligner/

RNA-seq | 比对软件HISAT

1. 构建索引

2. 比对

实际的例子

猜你喜欢

热点阅读