使用tophat-fusion鉴定融合基因
欢迎关注”生信修炼手册”!
tophat-fusion 是一款利用RNA_seq 数据鉴定融合基因的工具,官网链接如下:
http://ccb.jhu.edu/software/tophat/fusion_index.shtml
该软件是集成在tophat软件中的,只需要安装好tophat之后就可以使用了,使用方法也比较简单,唯一需要注意的是目录结构。
tophat-fusion要求固定的目录结构,比如我在result
文件夹下进行tophat-fusion的分析, 那么我需要在该目录下准备以下几个文件
-
物种对应的refGene.txt 和 ensGene.txt, 这两个文件可以从UCSC下载得到
-
新建一个blast 文件夹,注意文件夹的名字必须为”blast”, 在blast 文件夹下需要从NCBI下载
nt
,human_genomic
,other_genomic
开头的所有文件,下载的链接如下:ftp://ftp.ncbi.nlm.nih.gov/blast/db/
-
结果输出目录,每个样本对应一个输出目录,输出目录的前缀为
tophat_
, 下划线之后加上样本名称,类似tophat_MCF
,MCF
为样本的名字
当然你还需要物种对应的bowtie1
的索引文件,注意这里必须为bowtie1
的索引, tophat检测融合基因时推荐bowtie1的索引方式。
上述文件都准备好之后,就可以开始分析了,步骤如下
1. 比对参考基因组
第一步其实就是利用tophat将reads比对到参考基因组上,只不过对于融合基因的reads而言,其比对方式比较特殊,需要添加额外的参数,具体代码如下
tophat2 -o tophat_MCF7 -p 20 --fusion-search --keep-fasta-order --bowtie1 --no-coverage-search -r 0 --mate-std-dev 80 --max-intron-length 100000 --fusion-min-dist 100000 --fusion-anchor-length 13 --fusion-ignore-chromosomes chrM hg19_bowtie1/hg19 SRR064286_1.fastq SRR064286_2.fastq
2. 生成结果
在result
目录下,直接运行如下代码就可以了
tophat-fusion-post -p 20 --num-fusion-reads 1 --num-fusion-pairs 2 --num-fusion-both 5 hg19_bowtie1/hg19
默认处理的是human
的融合基因,如果是其他物种,需要添加--non-human
参数。
tophat-fusion会根据目录结构自动识别对应的样本, 运行完成之后,会生成一个名为tophatfusion_out
的文件夹,该文件夹下是所有样本的融合基因分析结果。
我们只需要看其中的result.html
文件就可以了,内容示意如下
每一列的含义如下
-
Sample name in which a fusion is identified
-
Gene on the “left” side of the fusion
-
Chromosome ID on the left
-
Coordinates on the left
-
Gene on the “right” side
-
Chromosome ID on the right
-
Coordinates on the right
-
Number of spanning reads
-
Number of spanning mate pairs
-
Number of spanning mate pairs where one end spans a fusion
相比fusionmap, 该软件的运行时间特别的长。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!