2020-01-10 了解FASTA文件格式

2020-01-11  本文已影响0人  王子威PtaYoth

FASTA格式的特点
“>”符号标志着一个记录的起始,一个记录分为第一行和其余行
第一行 ">" [序列识别号] [描述性文本]
其余行 [序列信息]

FASTA文件中的两个记录,核酸的标准字母表包含ATGC,扩展字母表包含N(ATCGN任意一种核酸),W(A或T),(“IUPAC nucleotides”以查找可能的编码)
FASTA原来是David Lipman写的工具,现在已经被BLAST软件套装取代,但FASTA格式成了标准格式。

创建FASTA文件需要遵守:
1、FASTA file中的序列长度不能太长,1行3.3亿个碱基只会让电脑爆炸。
2、某些工具会默认接受核酸或氨基酸字母表中不存在的字母,如果序列包含了4中碱基和20种氨基酸以外的字母,务必检查所用工具是如何读取的。
3、使用大写字母,尽管大小写可以通用,但不同工具会区别对待大小写,比如有些社区是默认将小写字母作为非重复序列,大写字母作为重复序列的(有些正好相反)。
4、FASTA的序列行必须以固定宽度换行

结构化的header

一些数据库会在FASTA文件的头部加入一些结构化的信息,工具也会对这些信息采取不同处理。例如NCBI的FASTA文件header会同时包括gi和gb accession number,如:>gi|10141003|gb|AF086833.2|
NCBI的Blast工具对这种头部的结构化信息会有更细致的识别,下图是一些可以识别的格式信息。

gb为GeneBank,gi为GeneInfo integrated database

FASTA格式种蕴含的其他信息:
ATGCATGCagctagctATGTATGC中,小写字母代表重复序列,agctagct即在基因组的多个区域中的重复性序列。但是重复性如何定义并识别并非易事,通常是依靠工具+调参标记的。
类似于lastz工具在处理序列时会默认跳过小写区域

如何获得FASTA文件

假设现在你知道了NCBI数据库某段序列的收录号,如NM_000020,可以通过efetch命令获取:
efetch -db nuccore -id NM_000020 -format fasta | head

上一篇 下一篇

猜你喜欢

热点阅读