转录组分析(5) - 无参转录组拼接(illumina)

2021-03-14 本文已影响0人半夜一更

目的

NGS测序得到的短序列（read）存储于Fastq文件，在经过DNA建库和测序之后，文件中不同read之间的顺序就全部丢失了。因此，Fastq文件中紧挨着的两条read之间没有任何位置关系，它们都是随机来自于原本基因组中某个位置的短序列而已。因此我们无法判断Fastq文件中reads间的顺序关系。比对就是把每一条read分别与该物种的参考基因组或自身组装的长序列进行比较，然后按顺序排列整齐并记录其对应的位置。

做法

对于没有参考基因组的物种进行转录组测序，需要首先对测序reads进行拼接，然后才能进行比对这一过程。

Trinity是一种针对无参考基因组RNA-Seq数据构建转录本的工具，目前已经成为无参转录组拼接的首选方法。Trinity分为3个模块，分别为：Inchworm、Chrysalis和Butterfly。InchWorm模块将测序得到的reads按照kmer的方法连接成线性序列，Chysalis模块根据线性序列的重叠区建立graph components，最后Butterfly模块应用De Brujin graph方法拼接得到转录本。在Trinity拼接结果中，选取每个基因中长度最长的转录本作为Unigene，该Unigene就可以代表该基因的转录本用于后续的功能注释和表达量计算。

Trinity原理.png

安装

编译安装：
在Trinity下载页面下载最新版本

wget https://github.com/trinityrnaseq/trinityrnaseq/releases/download/v2.12.0/trinityrnaseq-v2.12.0.FULL.tar.gz
tar -zxvf trinityrnaseq-v2.12.0.FULL.tar.gz
# 在基本安装目录中通过 make来编译安装Trinity

Anaconda 安装

conda activate py3
conda search trinity
conda install trinity

使用

Trinity --seqType fq --left reads_1.fq --right reads_2.fq --CPU 6 --max_memory 20G

组装拼接结果保存在./trinity_out_dir/Trinity.fasta文件中，该结果用于后续的功能注释和表达量计算。

转录组分析(5) - 无参转录组拼接(illumina)

目的

做法

安装

使用

猜你喜欢

热点阅读