生信入门参考资料RNASeq 数据分析融合基因鉴定

我是如何学习Gene Fusion分析的

2017-11-08  本文已影响531人  因地制宜的生信达人

你看到的不仅仅是一个教程,更是一个自学经验!

一、Fusion原理

基因融合(Gene fusion)是指将两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子和终止子等)的控制之下,构成嵌合基因。基因融合通常是由于染色体重排所造成的。异常基因融合事件可以引起恶性血液疾病以及肿瘤的发生,所以通过分析基因融合现象将有助于探讨发病机制、biomaker的筛选等,临床意义重大。


二、分析软件列表

Fusion genes/chimeras/translocation finders/structural variations

Genome arrange­ments re­sult of dis­eases like can­cer can pro­duce aber­rant ge­netic mod­i­fi­ca­tions like fu­sions or translo­ca­tions. Iden­ti­fi­ca­tion of these mod­i­fi­ca­tions play im­por­tant role in car­cino­gen­e­sis studies.

三、软件选择

生物信息学鉴定融合转录本的方法一般有两种:①将RNA-seq数据与Reference genome做alignment,鉴别可能发生重排的基因;②先直接将reads装配成更长的转录本序列,再鉴别与重排序列一致的融合转录本。我选择佛-麻省理工学院Broad Institute的 Brian J. Haas 和冷泉港实验室(CSHL)的 Alex Dobin 等人开发的工具STAR-Fusion,其工作原理分为三步:

10311

软件下载:

  1. # Get latest STAR source from releases

  2. wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz

  3. tar -xzf 2.5.3a.tar.gz

  4. cd STAR-2.5.3a

  5. # Alternatively, get STAR source using git

  6. git clone https://github.com/alexdobin/STAR.git

  7. cd STAR/source

  8. # Build STAR

  9. make STAR

  10. # To include STAR-Fusion

  11. git submodule update --init --recursive

  12. # If you have a TeX environment, you may like to build the documentation

  13. make manual

  14. ----------------------------------------------------------------------------

  15. # Download STAR-Fusion

  16. wget https://github.com/STAR-Fusion/STAR-Fusion/releases/download/v1.1.0/STAR-Fusion_v1.1.0.tar.gz

  17. tar -xzf STAR-Fusion_v1.1.0.tar.gz

新手可以在清华镜像上下载最新版本的Miniconda,命令如下:

  1. wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.3.27-Linux-x86_64.sh

  2. bash Miniconda3-4.3.27-Linux-x86_64.sh

  3. source ~/.bashrc  

  4. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

  5. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda

  6. conda install STAR

  7. conda install STAR-Fusion

Miniconda就像一个手机上的app store,配置好环境之后常用的软件都可以直接简单地下载使用。

四、软件使用

1.STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于其他比对的软件建立index);二是:序列比对。

①运行genomeGenerate

  1. STAR --runThreadN 12 --runMode genomeGenerate   --genomeDir result/  --genomeFastaFiles Homo_sapiens.GRCh38.dna_sm.toplevel.fa --limitGenomeGenerateRAM 146410676608  --sjdbGTFfile  Homo_sapiens.GRCh38.90.gtf --sjdbOverhang 89

详细参数见:https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf

这一步我设置了12个线程还是跑了很久:

微信图片_20171101093906

等待总是很漫长,尤其是被老板催着要结果的时候。。。

②运行比对

第一步等待的时间很久,等待的过程我也在看比对需要哪些输入,我发现居然可以直接用STAR-Fusion做,直接跳过STAR用原始Fastq数据,简直坑爹,浪费了前面几个小时建立index的时间。。。不过需要提前下载一个genome resource lib,https://data.broadinstitute.org/Trinity/CTATRESOURCELIB/

11011

这里的lib有两个版本:GRCh37和GRCh38,每个版本也有两个文件,如果下载1.2G大小的source data,就需要先做一步准备工作:

11012

然后再进行下面直接和下载26个G大小的plug-n-play.tar.gz 一样的,直接用STAR-Fusion运行找融合基因,不需要上面的准备工作。不过26G也够大,让足足我下了一个晚上,中间还断了一次,如果是自己实验室的小型服务器,建议从上面的步骤开始。

  1. STAR-Fusion --genome_lib_dir /path/to/your/CTAT_resource_lib \

  2.             --left_fq reads_1.fq \

  3.             --right_fq reads_2.fq \

  4.             --output_dir star_fusion_outdir

这一步很快,不到15min就跑完了,输出结果:

11013

部分结果:

11014

STAR-Fusion详细说明:https://github.com/STAR-Fusion/STAR-Fusion/wiki

大家肯定觉得思路比较混乱,我是按照学习的过程来写的,中间肯定会遇到各种磕磕绊绊,再给大家梳理一下用STAR-Fusion分析融合基因的两种方法:

①先用STAR 建立index做alignment,再用STAR-Fsion查找融合基因,但要注意在后续下载的genome resource lib和之前alignment的基因组版本对应;

②下载genome resource lib,可以下载1.2G的数据,先做准备工作,再用STAR-Fusion分析,如果网速足够快,可以直接下载26G的数据直接进行分析。

可视化的部分后面再更新。严格来讲,如果我们的数据是RNA-seq产生的,那我们找出来的是融合转录本 ,而不是融合基因 ,如果需要确认是不是融合基因,还需要DNA-Seq的数据。

上一篇 下一篇

猜你喜欢

热点阅读