转录本组装

2024-01-01  本文已影响0人  路人里的路人

1.软件安装(Trinity)

1.1 配置安装

wget https://github.com/trinityrnaseq/trinityrnaseq/archive/refs/tags/Trinity-v2.15.1.tar.gz
#下载安装包
tar -zxvf Trinity-v2.15.1.tar.gz
#解压缩安装包
cd Trinity-v2.15.1
make
#编译安装

1.2 conda安装

conda create -n trinity
conda activate trinity
#创建环境
conda install -c bioconda trinity=2.15.1
#安装指定版本的trinity

再将trinity添加到环境变量,这样就不用每次都使用conda 激活。

2.基本命令

Trinity --seqType fq --max_memory 50G --left reads_1.fq  --right reads_2.fq --CPU 6

--seqType fq指定测序文件的类型
--max_memory指定最大使用内存
--left/right双端测序文件名称
--CPU 最大CPU使用数目
如果有较大的数据量需要批量处理,Trinity也提供了批量运行的方法,即添加--samples_file参数指定,其基本格式如下:

cond_A    cond_A_rep1    A_rep1_left.fq    A_rep1_right.fq
cond_A    cond_A_rep2    A_rep2_left.fq    A_rep2_right.fq
cond_B    cond_B_rep1    B_rep1_left.fq    B_rep1_right.fq
cond_B    cond_B_rep2    B_rep2_left.fq    B_rep2_right.fq

此外,也可以使用awk命令批量生成运行命令

3.组装结果统计

3.1 统计命令

/path/to/your/TrinityStats.pl transcripts.fasta > Stat.txt

/path/to/your/TrinityStats.pl指定TrinityStats.pl脚本的位置,transcripts.fasta是需要统计的转录本,Stat.txt将统计结果指定到文件中。

3.2 统计结果解读

(1)Trinity.fasta
Trinity.fasta由两部分组成,一部分是表头,一部分是序列;表头部分TRINITY_DN93_c0_g1表示了该基因的ID,_i1表示可变剪切的某一部分;len=260表示该基因的序列长度;path=[238:0-259] 描述了该转录本的组装路径,包括从节点238的第0到259个碱基对; [-1, 238, -2]反映了组装过程中的连接关系。
(2)Stat.txt
该文件中需要注意的有以下几个:
Total trinity 'genes'
Total trinity transcripts都不应该超过20万条;N50提供了关于序列集合的中等大小的信息,该值应该在1Kb左右。

上一篇 下一篇

猜你喜欢

热点阅读