生信生信

转录组分析(5) - 无参转录组拼接(illumina)

2021-03-14  本文已影响0人  半夜一更
目的

NGS测序得到的短序列(read)存储于Fastq文件,在经过DNA建库和测序之后,文件中不同read之间的顺序就全部丢失了。因此,Fastq文件中紧挨着的两条read之间没有任何位置关系,它们都是随机来自于原本基因组中某个位置的短序列而已。因此我们无法判断Fastq文件中reads间的顺序关系。比对就是把每一条read分别与该物种的参考基因组或自身组装的长序列进行比较,然后按顺序排列整齐并记录其对应的位置。

做法

对于没有参考基因组的物种进行转录组测序,需要首先对测序reads进行拼接,然后才能进行比对这一过程。

Trinity是一种针对无参考基因组RNA-Seq数据构建转录本的工具,目前已经成为无参转录组拼接的首选方法。Trinity分为3个模块,分别为:Inchworm、Chrysalis和Butterfly。InchWorm模块将测序得到的reads按照kmer的方法连接成线性序列,Chysalis模块根据线性序列的重叠区建立graph components,最后Butterfly模块应用De Brujin graph方法拼接得到转录本。在Trinity拼接结果中,选取每个基因中长度最长的转录本作为Unigene,该Unigene就可以代表该基因的转录本用于后续的功能注释和表达量计算。 Trinity原理.png
安装

编译安装:
Trinity下载页面下载最新版本

wget https://github.com/trinityrnaseq/trinityrnaseq/releases/download/v2.12.0/trinityrnaseq-v2.12.0.FULL.tar.gz
tar -zxvf trinityrnaseq-v2.12.0.FULL.tar.gz
# 在基本安装目录中通过 make来编译安装Trinity

Anaconda 安装

conda activate py3
conda search trinity
conda install trinity
使用
Trinity --seqType fq --left reads_1.fq --right reads_2.fq --CPU 6 --max_memory 20G 

组装拼接结果保存在./trinity_out_dir/Trinity.fasta文件中,该结果用于后续的功能注释和表达量计算。

上一篇 下一篇

猜你喜欢

热点阅读