基因组组装转录组数据分析转录组

基于转录组预测基因预测

2020-07-15  本文已影响0人  斩毛毛

本文参考徐洲更hoptop

若有转录组,可从以下方面进行分析

1、 基于HISAT2 + StringTie

首先,使用HISAT2将RNA-seq数据比对到参考基因组, 这一步和之前相似,但是要增加一个参数--dta,使得StingTie能更好的利用双端信息

hisat2-build 01-augustus/genome.fa index/chi_masked
hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/leaf_ox_r1_1.fastq.gz -2 rna-seq/leaf_ox_r1_2.fastq.gz | samtools sort -@ 10 > rna-seq/leaf_ox_r1.bam &
hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/ox_flower9_rep1_1.fastq.gz -2 rna-seq/ox_flower9_rep1_2.fastq.gz | samtools sort -@ 10 > rna-seq/ox_flower9.bam &
hisat2 --dta -p 20 -x index/chi_masked -1 rna-seq/ox_flower16_rep1_1.fastq.gz -2 rna-seq/ox_flower16_rep1_2.fastq.gz | samtools sort -@ 10 > rna-seq/ox_flower16.bam &
samtools merge -@ 10 rna-seq/merged.bam rna-seq/leaf_ox_r1.bam rna-seq/ox_flower9.bam rna-seq/ox_flower16.bam

然后用StringTie进行转录本预测

stringtie -p 10 -o rna-seq/merged.gtf rna-seq/merged.bam

对于后续的EvidenceModeler而言,它不需要UTR信息,只需要编码区CDS,需要用TransDecoder进行编码区预测

util/cufflinks_gtf_genome_to_cdna_fasta.pl merged.gtf input/chi_masked.fa > transcripts.fasta
util/cufflinks_gtf_to_alignment_gff3.pl merged.gtf > transcripts.gff3
TransDecoder.LongOrfs -t transcripts.fasta
TransDecoder.Predict -t transcripts.fasta
util/cdna_alignment_orf_to_genome_orf.pl \
     transcripts.fasta.transdecoder.gff3 \
     transcripts.gff3 \
     transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3

最后结果transcripts.fasta.transdecoder.gff3用于提供给EvidenceModeler

2. 基于PASA

我之前也提及过,利用Trinity 基于比对进行组装,而后回帖到基因组中即可。


3. maker预测

若利用MAKER进行预测,在利用转录组时,推介使用STAR + StringTie + gffread 获取转录本
如果是StringTie组装的GTF文件,需要做如下的转换

gffread -E sample.gtf -o - | sed -e "s#transcript#match#g" -e "s#exon#match_part#g" > sample.gff

接着使用maker -CTL新建配置文件, 设置如下选项

genome=genome.fa
est=组织1.fa,组织2.fa,组织3.fa
est_gff=组织1.gff,组织2.gff,组织3.gff
protein=protein.fa
est2genome=1
protein2genome=1
上一篇 下一篇

猜你喜欢

热点阅读