生信log

生信log45|基因组数据注释到底是怎么回事?

2024-02-04  本文已影响0人  小周的万用胶囊

生信log|基因组数据注释到底是怎么回事?

在一开始做生信分析的时候,我对下游的分析其实不太了解,当时频繁接触到的概念叫“注释”,注释后就可获得关键基因相关的一些数据。后来深入分析后也经常会疑惑为什么某些数据就是注释不上信息,参与到注释数据库的开发之后,对数据注释有了更深入的认识,于是写下了本篇的说明,主要解释的是功能注释。

0. 本文目的

1. 基因组数据是怎么被注释的

生物的数据一般分为表格数据和序列数据。虽然生物数据有很多种格式如gff,vcf,bed等等, 但它们实际上都是以tab为分隔符的tsv表格,开头一大段####这些都是注释信息,python或者R语言读取数据的时候一般都可以跳过。

这里所说的序列数据指的是DNA(.fasta),蛋白质序列(.faa)这一类文件。

网站提供的注释流程应该是先进行序列比对,选出相似性最高的序列,搜索数据库中相关信息最后得出结果。


参考及推荐阅读

原核个性化分析
阅读原文

上一篇 下一篇

猜你喜欢

热点阅读