转录本组装

2024-01-01 本文已影响0人路人里的路人

1.软件安装（Trinity）

1.1 配置安装

wget https://github.com/trinityrnaseq/trinityrnaseq/archive/refs/tags/Trinity-v2.15.1.tar.gz
#下载安装包
tar -zxvf Trinity-v2.15.1.tar.gz
#解压缩安装包
cd Trinity-v2.15.1
make
#编译安装

1.2 conda安装

conda create -n trinity
conda activate trinity
#创建环境
conda install -c bioconda trinity=2.15.1
#安装指定版本的trinity

再将trinity添加到环境变量，这样就不用每次都使用conda 激活。

2.基本命令

Trinity --seqType fq --max_memory 50G --left reads_1.fq  --right reads_2.fq --CPU 6

--seqType fq指定测序文件的类型
--max_memory指定最大使用内存
--left/right双端测序文件名称
--CPU 最大CPU使用数目
如果有较大的数据量需要批量处理，Trinity也提供了批量运行的方法，即添加--samples_file参数指定，其基本格式如下：

cond_A    cond_A_rep1    A_rep1_left.fq    A_rep1_right.fq
cond_A    cond_A_rep2    A_rep2_left.fq    A_rep2_right.fq
cond_B    cond_B_rep1    B_rep1_left.fq    B_rep1_right.fq
cond_B    cond_B_rep2    B_rep2_left.fq    B_rep2_right.fq

此外，也可以使用awk命令批量生成运行命令

3.组装结果统计

3.1 统计命令

/path/to/your/TrinityStats.pl transcripts.fasta > Stat.txt

/path/to/your/TrinityStats.pl指定TrinityStats.pl脚本的位置，transcripts.fasta是需要统计的转录本，Stat.txt将统计结果指定到文件中。

3.2 统计结果解读

（1）Trinity.fasta
Trinity.fasta由两部分组成，一部分是表头，一部分是序列；表头部分TRINITY_DN93_c0_g1表示了该基因的ID，_i1表示可变剪切的某一部分；len=260表示该基因的序列长度；path=[238:0-259] 描述了该转录本的组装路径，包括从节点238的第0到259个碱基对； [-1, 238, -2]反映了组装过程中的连接关系。
（2）Stat.txt
该文件中需要注意的有以下几个：Total trinity 'genes'和Total trinity transcripts都不应该超过20万条；N50提供了关于序列集合的中等大小的信息，该值应该在1Kb左右。