数据库 | 基因组注释

2020-06-01 本文已影响0人胡童远

导读

从网上收集的一些数据库信息，方便学习查看：

VFDB
PHI
TCDB
Swiss Prot
Pfam
GO
eggnog-mapper: KEGG/COG/KOG/GO/BiGG

一、VFDB 【毒力因子】

毒力因子指由细菌，病毒，真菌等代谢产生的带有侵袭力和毒素等毒力性质的分子，主要用于微生物感染宿主时，通过抑制或逃避宿主的免疫反应等出入宿主组织细胞，并从宿主获得营养及自身增殖生长的目的。毒力因子可编码在可移动遗传元件（比如质粒、基因岛、噬菌体等）上并进行水平基因转移（传播），使无害细菌变成危险的病原菌，所以在鉴定毒力因子时一般会考虑基因岛、分泌蛋白等。VFDB数据库由中国医学科学院研发，收集整理了24个属100多种重要医学病原菌已知毒力因子的组成、结构、功能、致病机理、毒力岛、序列和基因组信息等内容，被广泛应用于毒力因子基因鉴定。

官网：http://www.mgc.ac.cn/VFs/download.htm
fasta下载：http://www.mgc.ac.cn/VFs/Down/VFDB_setB_pro.fas.gz

二、PHI 【病原体宿主互作】

PHI-base（Pathogen Host Interactions），病原宿主互作数据库，是一个免费开放的数据库，收录了经过实验验证或文献报道的能够感染植物、动物、真菌和昆虫的真菌、卵菌、细菌等病原菌的致病基因、毒力基因和效应蛋白基因。另外，还收录了抗真菌化合物及其靶基因。PHI数据库（4.6版本，20190411），从3011篇文献中收集了263种致病菌（细菌、真菌、原生动物和线虫）的6438个基因和194种宿主（植物占~70%、脊椎动物、昆虫、线虫和真菌）的11340种相互关系，其中包含510中疾病。PHI-base将收集到的参考文献信息、基因信息、病原和宿主信息、疾病信息、表型和相互关系等记录到数据库中，并提供关键词进行搜索。

官网：http://www.phi-base.org/
fasta下载：http://www.phi-base.org/downloadLink.htm

三、TCDB 【转运蛋白分类】

TCDB是对膜转运蛋白（Membrane Transport Protein）进行分类的一个数据库，它制定了一套转运蛋白分类系统（Transporter Classification）, 简称TC System, 类似于对酶进行分类的EC系统。TCDB对于每一个转运蛋白家族，提供了一个TC Nmuber, TC Number 由小数点分隔的5为数字或者字母构成。对于整个TC 分类系统而言，包含5个层级的分类，所以TC Number 包含5个数字或者字母，每个数字或字母实际代表某一个层级的分类结果，第一级分类包括5个大类。目前TCDB提供了超过800个转运蛋白家族，包含10000多条唯一的蛋白质序列和10000多篇文献。

官网：http://www.tcdb.org/
fasta下载：http://www.tcdb.org/download.php

四、Swiss Prot 【注释蛋白】

SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

官网：https://www.ebi.ac.uk/uniprot/
fasta下载：https://www.uniprot.org/downloads

五、Pfam 【蛋白家族】

Pfam提供蛋白质家族和结构域的完整准确的分类，被广泛用于查询蛋白家族或蛋白结构域的注释，结构及其多序列比对信息。在该数据库中，每个蛋白家族由多个序列比对和HMMs（hidden Markovmodels，隐马尔可夫模型）所体现。Pfam包括两个质量级别的家族数据库：Pfam-A和Pfam-B。1. Pfam-A来自基础序列数据库Pfamseq，是根据最新的UniProtKB数据库建立，质量较高。2. Pfam-B做为Pfam-A的补充，是一个未注释的低质量数据库，一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低，但对于鉴定Pfam-A无法覆盖到的功能保守区域也是非常有用的。

官网：http://pfam.xfam.org/
fasta下载：ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.full.gz

六、GO 【基因本体】

GO数据库是基因本体联合会(Gene Onotology Consortium)所建立的数据库，旨在建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种，是OBO（Open BiomedicalOntologies）组织中的一员，GO提供了一系列的语义（terms）用于描绘基因、基因产物的特点，这些语义通过三个概念维度展开：细胞学组件（Cellular Component）用于描述某个节点的亚细胞结构、位置和大分子复合物，如外部封装结构（external encapsulating structure）等；分子功能（molecular function），用于描述基因以及基因产物的功能，比如蛋白质结合转录因子活性（protein binding transcription factor activity）；生物学途径（biological process）指的是分子功能的有序组合以实现更复杂的生物功能，例如树突状细胞的抗原处理和递呈（dendritic cell antigen processing and presentation）。

官网：http://geneontology.org/
ncbi fasta下载：ftp://ftp.ncbi.nih.gov/gene/DATA/gene2go.gz

七、eggNOG-mapper 【KEGG/COG/KOG/GO/BiGG】

进行KOG注释的方法和COG一致。对真核生物使用KOG注释。原核使用COG注释。

官网：http://eggnog-mapper.embl.de/
guthub：https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2
软件：git clone https://github.com/jhcepas/eggnog-mapper.git
数据库：download_eggnog_data.py
NCBI COG: https://www.ncbi.nlm.nih.gov/COG/
NCBI KOG: ftp://ftp.ncbi.nih.gov/pub/COG/KOG/

注释结果：

1. query_name
2. seed eggNOG ortholog
3. seed ortholog evalue
4. seed ortholog score
5. Predicted taxonomic group
6. Predicted protein name
7. Gene Ontology terms 
8. EC number
9. KEGG_ko
10. KEGG_Pathway
11. KEGG_Module
12. KEGG_Reaction
13. KEGG_rclass
14. BRITE
15. KEGG_TC
16. CAZy 
17. BiGG Reaction
18. tax_scope: eggNOG taxonomic level used for annotation
19. eggNOG OGs 
20. bestOG (deprecated, use smallest from eggnog OGs)
21. COG Functional Category
22. eggNOG free text description

参考：
序列功能注释神器：eggNOG-mapper，KEGG/COG/KOG/GO/BiGG 一网打尽
 COG KOG注释

$\color{green}{还有很多参考没有及时保存，后期添上，这里纯属个人学习备忘，无任何商业用途/(ㄒoㄒ)/~~}$