根据转录本寻找可能的生物学功能信息
2019-02-17 本文已影响37人
刘小泽
刘小泽写于19.2.17
依然是很容易上手的小工具
得到了组装的转录本,就可以根据这个去找潜在的生物学相关信息,比如编码区预测、注释等
利用TransDecoder 这个工具可以在转录本序列中寻找潜在的编码区,它先找到长的开放阅读框区域(ORFs)
TransDecoder.LongOrfs -t Trinity.fasta
然后根据序列组成打分
TransDecoder.Predict -t Trinity.fasta
结果会得到一些带有transdecoder字符的文件
Trinity.fasta.transdecoder.bed
Trinity.fasta.transdecoder.cds
Trinity.fasta.transdecoder.gff3
Trinity.fasta.transdecoder.pep
Trinity.fasta.transdecoder_dir/
...
其中最关心的就是:Trinity.fasta.transdecoder.pep
,其中包含了预测的编码区对应的蛋白序列
$ less Trinity.fasta.transdecoder.pep
>TRINITY_DN107_c0_g1_i1.p1 TRINITY_DN107_c0_g1~~TRINITY_DN107_c0_g1_i1.p1 ORF type:internal len:175 (+),score=164.12 TRINITY_DN107_c0_g1_i1:2-523(+)
VPLYQHLADLSDSKTSPFVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKSFREAMRIG
SEVYHNLKSLTKKRYGSSAGNVGDEGGVAPDIQTAEEALDLIVDAIKAAGHEGKVKIGLD
CASSEFFKDGKYDLDFKNPNSDASKWLSGPQLADLYHSLVKKYPIVSIEDPFAE
>TRINITY_DN10_c0_g1_i1.p2 TRINITY_DN10_c0_g1~~TRINITY_DN10_c0_g1_i1.p2 ORF type:internal len:158 (-),score=122.60 TRINITY_DN10_c0_g1_i1:2-472(-)
TDQDKRYQAKMGKSHGYRSRTRYMFQRDFRKHGAIALSTYLKVYKVGDIVDIKANGSIQK
GMPHKFYQGKTGVVYNVTKSSVGVIVNKMVGNRYLEKRLNLRVEHVKHSKCRQEFLDRVK
SNAAKRAEAKAQGKAVQLKRQPAQPREARVVSTEGNV
这个文件中:header行包含了蛋白的ID信息、原始转录本ID信息、type信息、长度、正负链、打分信息、ORF坐标信息
其中type信息可能会出现:
- complete:包含起始、终止密码子
- 5prime_partial:可能是N端的一部分,但丢失起始密码子
- 3prime_partial:可能是C端的一部分,但丢失终止密码子
- internal:既有N端又有C端的部分
得到的.pep文件可以用于接下来的同源比对
刚得到转录本时就进行了一次SWISSPROT数据库的比对,目的是找到全长转录本;这里再利用得到的蛋白序列进行同源比对,只不过需要适当降低evalue,因此目前序列较之前转录本少许多
blastp -query Trinity.fasta.transdecoder.pep \
-db mini_sprot.pep -num_threads 5 \
-max_target_seqs 1 -outfmt 6 -evalue 1e-5 \
> swissprot.blastp.outfmt6
另外可以用HMMER进行一个Pfam比对,找到可能的保守结构域
hmmscan --cpu 5 --domtblout TrinotatePFAM.out \
Pfam-A.hmm \
Trinity.fasta.transdecoder.pep
可以预测下信号肽、跨膜结构域信息
使用signalp
预测信号肽
signalp -f short -n signalp.out Trinity.fasta.transdecoder.pep
看下结果
$ less signalp.out
##gff-version 2
##sequence-name source feature start end score N/A ?
## -----------------------------------------------------------
TRINITY_DN19_c0_g1_i1|m.141 SignalP-4.0 SIGNAL 1 18 0.553 . . YES
TRINITY_DN33_c0_g1_i1|m.174 SignalP-4.0 SIGNAL 1 19 0.631 . . YES
使用wc -l
可以看预测了多少的信号肽
还可以使用tmhmm
预测跨膜结构区域
关于各种预测的软件信息:http://www.cbs.dtu.dk/services/software.php
欢迎关注我们的公众号~_~
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com