解读Trinity.fa文件
2020-04-23 本文已影响0人
看远方的星
基本生物学知识
- 外显子(exon):一段能够在剪切(splicing)中保留,表达出蛋白质的RNA序列,也指编码该RNA的DNA片段,被称为表达序列。
- 内含子(intron): 无法在剪切中保留,不参加编码蛋白的序列,存在于前体RNA或DNA中。
- 转录本是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。
- 可变剪切differential splicing,也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程当中,RNA的外显子以多种方式通过RNA剪切进行重连产生多个不同的成熟mRNA, 最终产生不同的蛋白质。因此,一个基因(gene)可能编码多种蛋白质(isoform亚型)。
- K-mer
这里首先需要知道一个专有名词的概念,mer,其在分子生物学领域中意义为单体单元 (monomeric unit,mer)。通常用于核酸序列中的单位,代表nt或者bp,例如,100 mer DNA代表这段DNA序列单链长度100nt,或者双链长度100bp。
而k-mer则是指将核酸序列分成包含k个碱基的字符串,即从一段连续的核酸序列中迭代地选取长度为K个碱基的序列,若核酸序列长度为L,k-mer长度为K,那么可以得到L-K+1个k-mers。如下图所示,假设这里存在某序列长度为21,设定选取的k-mer长度为7,则得到(21-7+1=15)个7-mers。
k-mer.png- 序列拼接:通过读取片段(reads)间的连接关系(overlap)构建出更长的连续性片段(contig)。更进一步的组装研究中,序列拼接问题被转化为图论中的路径寻找问题:以点(node)代表测序序列,以边(edge)代表连接关系,以路径(path)代表的图上点的定向行走(walk)。这里面,最有代表性的两种构图方式即string图和de Brujin图。
Trinity使用的就是de Brujin图(Trinity compacted de Bruijn graph to construct that transcript)
- Trinity的拼接原理:
最后一步使用Butterfly构建de Bruijn时使用component2进行演示。更加详细内容参考该文章:转录组组装软件:Trinity (转载)
trinity拼接原理.jpgTrinity.fa
格式如下:
>TRINITY_DN1000_c115_g5_i1 len=247 path=[31015:0-148 23018:149-246]
AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACAC
ACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGA
AGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTC
CAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGA
TAAAGCA
TRINITY_DN1000_c115_g5_i1
Trinity read cluster 'TRINITY_DN1000_c115'
gene 'g5'
isoform 'i1'.
待更新
参考文章
1、可变剪切的意义和重要性
2、外显子-百度百科
3、内含子-百度百科
4、Output of Trinity Assembly
5、漫谈组装
6、基因组分析简介之K-mer分析
7、转录组组装软件:Trinity (转载)