数据库 | 基因组注释
导读
从网上收集的一些数据库信息,方便学习查看:
- VFDB
- PHI
- TCDB
- Swiss Prot
- Pfam
- GO
- eggnog-mapper: KEGG/COG/KOG/GO/BiGG
一、VFDB 【毒力因子】
毒力因子指由细菌,病毒,真菌等代谢产生的带有侵袭力和毒素等毒力性质的分子,主要用于微生物感染宿主时,通过抑制或逃避宿主的免疫反应等出入宿主组织细胞,并从宿主获得营养及自身增殖生长的目的。毒力因子可编码在可移动遗传元件(比如质粒、基因岛、噬菌体等)上并进行水平基因转移(传播),使无害细菌变成危险的病原菌,所以在鉴定毒力因子时一般会考虑基因岛、分泌蛋白等。VFDB数据库由中国医学科学院研发,收集整理了24个属100多种重要医学病原菌已知毒力因子的组成、结构、功能、致病机理、毒力岛、序列和基因组信息等内容,被广泛应用于毒力因子基因鉴定。
官网:http://www.mgc.ac.cn/VFs/download.htm
fasta下载:http://www.mgc.ac.cn/VFs/Down/VFDB_setB_pro.fas.gz
二、PHI 【病原体宿主互作】
PHI-base(Pathogen Host Interactions),病原宿主互作数据库,是一个免费开放的数据库,收录了经过实验验证或文献报道的能够感染植物、动物、真菌和昆虫的真菌、卵菌、细菌等病原菌的致病基因、毒力基因和效应蛋白基因。另外,还收录了抗真菌化合物及其靶基因。PHI数据库(4.6版本,20190411),从3011篇文献中收集了263种致病菌(细菌、真菌、原生动物和线虫)的6438个基因和194种宿主(植物占~70%、脊椎动物、昆虫、线虫和真菌)的11340种相互关系,其中包含510中疾病。PHI-base将收集到的参考文献信息、 基因信息、病原和宿主信息、疾病信息、表型和相互关系等记录到数据库中,并提供关键词进行搜索。
官网:http://www.phi-base.org/
fasta下载:http://www.phi-base.org/downloadLink.htm
三、TCDB 【转运蛋白分类】
TCDB是对膜转运蛋白(Membrane Transport Protein)进行分类的一个数据库,它制定了一套转运蛋白分类系统(Transporter Classification), 简称TC System, 类似于对酶进行分类的EC系统。TCDB对于每一个转运蛋白家族,提供了一个TC Nmuber, TC Number 由小数点分隔的5为数字或者字母构成。对于整个TC 分类系统而言,包含5个层级的分类,所以TC Number 包含5个数字或者字母, 每个数字或字母实际代表某一个层级的分类结果,第一级分类包括5个大类。目前TCDB提供了超过800个转运蛋白家族, 包含10000多条唯一的蛋白质序列和10000多篇文献。
官网:http://www.tcdb.org/
fasta下载:http://www.tcdb.org/download.php
四、Swiss Prot 【注释蛋白】
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
官网:https://www.ebi.ac.uk/uniprot/
fasta下载:https://www.uniprot.org/downloads
五、Pfam 【蛋白家族】
Pfam提供蛋白质家族和结构域的完整准确的分类,被广泛用于查询蛋白家族或蛋白结构域的注释,结构及其多序列比对信息。在该数据库中,每个蛋白家族由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。1. Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据库建立,质量较高。2. Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域也是非常有用的。
官网:http://pfam.xfam.org/
fasta下载:ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.full.gz
六、GO 【基因本体】
GO数据库是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,是OBO(Open BiomedicalOntologies)组织中的一员,GO提供了一系列的语义(terms)用于描绘基因、基因产物的特点,这些语义通过三个概念维度展开:细胞学组件(Cellular Component)用于描述某个节点的亚细胞结构、位置和大分子复合物,如外部封装结构(external encapsulating structure)等;分子功能(molecular function),用于描述基因以及基因产物的功能,比如蛋白质结合转录因子活性(protein binding transcription factor activity);生物学途径(biological process)指的是分子功能的有序组合以实现更复杂的生物功能,例如树突状细胞的抗原处理和递呈(dendritic cell antigen processing and presentation)。
官网:http://geneontology.org/
ncbi fasta下载:ftp://ftp.ncbi.nih.gov/gene/DATA/gene2go.gz
七、eggNOG-mapper 【KEGG/COG/KOG/GO/BiGG】
进行KOG注释的方法和COG一致。对真核生物使用KOG注释。原核使用COG注释。
官网:http://eggnog-mapper.embl.de/
guthub:https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2
软件:git clone https://github.com/jhcepas/eggnog-mapper.git
数据库:download_eggnog_data.py
NCBI COG: https://www.ncbi.nlm.nih.gov/COG/
NCBI KOG: ftp://ftp.ncbi.nih.gov/pub/COG/KOG/
- 注释结果:
1. query_name
2. seed eggNOG ortholog
3. seed ortholog evalue
4. seed ortholog score
5. Predicted taxonomic group
6. Predicted protein name
7. Gene Ontology terms
8. EC number
9. KEGG_ko
10. KEGG_Pathway
11. KEGG_Module
12. KEGG_Reaction
13. KEGG_rclass
14. BRITE
15. KEGG_TC
16. CAZy
17. BiGG Reaction
18. tax_scope: eggNOG taxonomic level used for annotation
19. eggNOG OGs
20. bestOG (deprecated, use smallest from eggnog OGs)
21. COG Functional Category
22. eggNOG free text description
参考:
序列功能注释神器:eggNOG-mapper,KEGG/COG/KOG/GO/BiGG 一网打尽
COG KOG注释