基因组组装

UniProt蛋白质序列数据库简介

2021-10-14  本文已影响0人  Seurat_Satija

访问网址:http://www.uniprot.org/

数据库介绍:

Unified Protein Database(简称UniProt)是信息最丰富、资源最广的蛋白质序列数据库,整合Swiss-Prot、TrEMBL和PIR三大数据库的数据而成。

UniProt包含3个部分:

(1)UniProt Knowledgebase(UniProtKB)是蛋白质序列、功能、分类、交叉引用等信息存取中心;UniProtKB主要由两部分组成:

UniProtKB/Swiss-Prot:高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库;

UniProtKB/TrEMBL:该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列;

(2)UniProt Non-redundant Reference(UniRef)将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度。目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;

(3)UniProt Archive(UniParc)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次,无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。该数据库含有蛋白质的序列信息,而没有注释数据。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。

上一篇下一篇

猜你喜欢

热点阅读