2020-01-11 了解GeneBank格式

2020-01-11 本文已影响0人王子威PtaYoth

GenBank格式是最古老的生物信息学数据格式之一，最初是为了兼顾可读性和计算机处理的有些翱翔。具有所谓的固定宽度格式，其中前10个字符构成用作标识符的列，该行其余是与该标识符相对应的信息。

GeneBank格式

GeneBank数据

GeneBank格式可读性可以，但不适合做分析，通常用ReadSeq工具转换为其他更简单的格式。
NCBI参考序列（RefSeq）项目提供许多生物体的序列记录和相关信息，并为医学、功能学和比较研究提供基线。
RefSeq数据库是一组非冗余的参考标准，源于GenBank中存储的所有数据。包括：

染色体
完整的基因组分子（细胞器基因组、病毒、质粒）
中间组装的gemonic contigs
curated基因组区域
mRNAs
RNAs
蛋白质

获取不同数据格式并转换

# Fetch the sequence from NCBI. 这里-format gb即Genebank文件
efetch -db nuccore -id NC_001501 -format gb > NC_001501.gb
cat NC_001501.gb | head

如果想要FASTA格式的文件
#既可以-format fasta
efetch -db nuccore -id NC_001501 -format fasta > NC_001501-version1.fa
#也可以用seqret将Genebank文件转换为FASTA文件
cat NC_001501.gb | seqret -filter -osformat fasta > NC_001501-version2.fa

看看结果是否一样

cat NC_001501-version1.fa | head -2
cat NC_001501-version2.fa | head -2
#事实上显示的前两行就有差别

什么时候改变数据格式？

如果数据源提供了多种数据格式，最好分别获取每一种格式，而不是在格式之间相互转换，每一次转换都有可能出现问题
如果数据源只提供了一种格式，而且你不确定数据采用的基因组构建是否相同，那你只能自己做re-formatting了，这个过程一定要慎之又慎！“犯了点小错误”的数据往往是致命的
RefSeq记录的特点是两个字母加下划线开头：NP_

2020-01-11 了解GeneBank格式

GeneBank数据

获取不同数据格式并转换

什么时候改变数据格式？

猜你喜欢

热点阅读