三代测序技术

解读Trinity.fa文件

2020-04-23  本文已影响0人  看远方的星

基本生物学知识

可变剪切

而k-mer则是指将核酸序列分成包含k个碱基的字符串,即从一段连续的核酸序列中迭代地选取长度为K个碱基的序列,若核酸序列长度为L,k-mer长度为K,那么可以得到L-K+1个k-mers。如下图所示,假设这里存在某序列长度为21,设定选取的k-mer长度为7,则得到(21-7+1=15)个7-mers。

k-mer.png De Brujin Graph in genome assembly

最后一步使用Butterfly构建de Bruijn时使用component2进行演示。更加详细内容参考该文章:转录组组装软件:Trinity (转载)

trinity拼接原理.jpg

Trinity.fa

格式如下:

>TRINITY_DN1000_c115_g5_i1 len=247 path=[31015:0-148 23018:149-246]
 AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACAC
 ACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGA
 AGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTC
 CAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGA
 TAAAGCA

TRINITY_DN1000_c115_g5_i1
Trinity read cluster 'TRINITY_DN1000_c115'
gene 'g5'
isoform 'i1'.
待更新


参考文章

1、可变剪切的意义和重要性
2、外显子-百度百科
3、内含子-百度百科
4、Output of Trinity Assembly
5、漫谈组装
6、基因组分析简介之K-mer分析
7、转录组组装软件:Trinity (转载)

上一篇下一篇

猜你喜欢

热点阅读