数据库数据库生物学知识

【生信课程】02生物数据库-山东大学-生物信息学

2018-01-01  本文已影响786人  leadingsci

生物数据库

一级核酸数据库

NCBI https://www.ncbi.nlm.nih.gov/

EBI

DDBJ

insdc http://www.insdc.org/ 由三大数据库集合资源,共同维护。

示例:

  1. 搜索原核生物dUTPase基因,输入“X01714 ” 到Nucleotide 数据库= Genbank 数据库;基因的名字唯一一个,版本号有多个(更新时间,不同数据库)
    https://www.ncbi.nlm.nih.gov/nuccore/X01714

  2. 搜索编码真核生物人dUTPase的成熟mRNA序列信息:U90223 (mRNA检索号)
    https://www.ncbi.nlm.nih.gov/nuccore/U90223

  3. 搜索编码真核生物人dUTPase的基因组DNA序列信息:AF018430, gene="DUT"
    https://www.ncbi.nlm.nih.gov/nuccore/AF018430.1?report=genbank

基因组数据库

Ensemble http://www.ensembl.org/ (由EBI和sanger维护)

UCSC http://genome.ucsc.edu/

微生物宏基因组数据库

JCVI http://www.jcvi.org/cms/home/

人类基因组计划 http://hmp.jcvi.org/


二级核酸数据库


一级蛋白序列数据库

示例

  1. 在Uniprot 数据库搜索“human dutpase”,
    http://www.uniprot.org/uniprot/?query=human+dutpase%E2%80%9D&sort=score

检索结果

检索注释

UniProtKB 纯文本(Flat File)格式数据库记录条目索引含义表

iUniProtKB

一级蛋白结构数据库

蛋白质的结构可以分为四级。

  1. 一级结构也就是所谓的氨基酸序列。
  2. 二级结构是我们熟悉的α螺旋和β折叠等。
  3. 三级结构是蛋白质的三维空间结构。
  4. 四级结构是几个蛋白质分子的复合体结构。

PDB 蛋白质结构数据库 PDB

http://www.rcsb.org/pdb/home/home.do

是全世界唯一存储生物大分子 3D 结构的数据库。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通过实验方法获得的 3D 结构才会被收入其中。

示例

  1. 在PDB数据库,搜索“Su X D dUTPase”
    搜索结果:
    http://www.rcsb.org/pdb/explore/explore.do?structureId=3H6X
    http://www.rcsb.org/pdb/results/results.do?tabtoshow=Current&qrid=48C5EBE8

数据库检索号 PDB ID “3H6X”

结构信息存储在 PDB 格式的一个纯文本文件里,这种文件叫做 PDB文件。PDB 文件都是以 PDB ID 命名,以“.PDB”为后缀,可以用记事本打开。

PDB数据库,主要来源的实验方法是: X-RAY DIFFRACTION;少数是NMR核磁共振法。

一级蛋白质结构数据库:PDB 文件注释解读

第一部分:头信息
HEADER:蛋白质结构的基本信息描述,包括分子类别,存储日期,PDB ID
TITLE:结构的标题
COMPND:对结构中各个分子的描述。从这里可以看出 3H6X 这个结构是由三条链形成
的三聚体结构。
SOURCE:结构中所包括的每一个分子的实验来源。
KEYWDS:用于数据库搜索的关键词
EXPDTA:测定结构所采用的实验方法。PDB 中绝大部分结构都是通过 X 射线衍射法测
定的,少数是核磁共振法,极少数是使用包括电子显微镜在内的其他方法测定的。
AUTHOR:作者信息
REVDAT:历史上曾经对该数据库记录进行过的修改。
JRNL:发表结构的文献信息。
REMARK:无法归入其他部分的注释。

第二部分:一级结构信息(也就是氨基酸序列)
DBREF:该蛋白质在蛋白质序列数据库里的检索号等信息。
SEQRES:氨基酸序列。
MODRES:对标准残基上的修饰,比如第 56 号位置的蛋氨酸被硒代蛋氨酸所取代。

第三部分:非标准残基信息
HET:非标准残基及位置。
HETNAM:非标准残基的化学名称。
FORMUL:非标准残基的化学式。

第四部分:二级结构信息
HELIX:位于螺旋结构上的氨基酸所在位置及所属链。
SHEET:位于折片结构上的氨基酸所在位置及所属链。
TURN:位于转角结构上的氨基酸所在位置及所属链。
Link:残基间的化学键。比如 106 号氨基酸上的 C 与 107 号氨基酸上的 N 之间的化学
键是肽键!键长 1.32 埃。除了肽键还可能有氢键,二硫键等等。

第五部分:实验参数信息
CRYST1:晶胞参数。
ORIGXn:直角-PDB 坐标。
SCALE*:直角部分结晶学坐标。

第六部分:3D 坐标信息
ATOM:PDB 文件中最重要的,也是篇幅最长的就是 3D 坐标部分。
CONECT:原子间化学键连接信息。
MASTER:版权拥有者信息。
END:结束符。
3D 坐标信息

PDB 文件 3D 展示-Jsmol
PDB 数据库就提供这样一个在线的可视化软件,叫 JSmol
(JSmol 基于 JAVA 开发,所以需要先安装 java 运行环境。可以使用360浏览器)

3D结构图:
http://www.rcsb.org/pdb/explore/jmol.do?structureId=3H6X&bionumber=1

通过Style、Color可以更改图片风格

3D结构

改变类型:


Space Fill

改变颜色:


Subunit

二级蛋白质结构数据库:

结构域家族数据库 Pfam

http://pfam.xfam.org/
是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族。

蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。

示例
在搜索窗口:http://pfam.xfam.org/search,输入蛋白质fasta序列,查到结构域。

输入:Toll 样受体蛋白, pfam.fasta 文件,查找TIR 结构域

Summary 里可以获得这个结构域的功能注释以及结构信息。
Domain Organization 里可以看到目前有多少蛋白质拥有 TIR 结构域,以及 TIR 结构域和其他结构域之间的组合搭配关系。
Structure 会列出目前所有包含 TIR 结构域的蛋白质结构,以及他们在序列数据库。
UniProt 和结构数据库 PDB 中的链接。同时,也提供 JSmol 在线结构查看工具。

结构分类数据库 CATH/Gene3D

http://www.cathdb.info/

根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结构分类数据库。

CATH这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。

所有蛋白质结构域在 CATH 中被首先分成 4 种 CLASS

image.png

示例
进入CATH数据库,对PDB数据库分类的更新情况。

PDB蛋白结构域分类情况

搜索“3H6X”,得到分类代码“2.70.40.10”

详情页:http://www.cathdb.info/version/latest/superfamily/2.70.40.10

CATH 还从 2.70.40.10 这个结构分类里挑出了 19 个有代表性的结构域,并且
把他们的 3D 结构叠加在了一起(图 3)。从这个图上,我们可以看到这个结构分类的总体特
征以及差异产生的位置。

二级结构
彩色二级结构

CATH 把所有拥有 2.70.40.10结构分类的结构域,根据他们的序列相似度不同,进行了聚类

CATH Domains

二级蛋白质结构数据库:结构分类数据库 SCOP2

http://scop2.mrc-lmb.cam.ac.uk

SCOP 数据库与 CATH 类似,也属于蛋白质结构分类数据库,但 SCOP 的分类原则更
多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。

image.png

示例

  1. 在SCOP数据库,搜索“2BOP”

专项数据库

京都KEGG,全称京都基因与基因组百科全书

http://www.genome.jp/kegg

示例

  1. 进入KEGG数据库http://www.genome.jp/kegg/

子数据库

 Data-oriented entry points 
KEGG PATHWAY   KEGG pathway maps 代谢通路(最常用)
KEGG BRITE   BRITE hierarchies and tables
KEGG MODULE   KEGG modules  
KEGG ORTHOLOGY   KO functional orthologs   [Annotation]  KO功能通路
KEGG GENOME   Genomes   [Virus | Plant]  基因组  
KEGG GENES    Genes and proteins   [SeqData] 基因和蛋白
KEGG COMPOUND    Small molecules  小分子
KEGG GLYCAN    Glycans
KEGG REACTION    Biochemical reactions   [RModule]
KEGG ENZYME    Enzyme nomenclature
KEGG NETWORK    Disease-related network elements New! 疾病相关网络
KEGG DISEASE    Human diseases   [Cancer | Pathogen] 人类疾病
KEGG DRUG    Drugs   [New drug approvals] 药物

KEGG PATHWAY
又分为7个部分:
1)Metabolism,
2)Genetic Information Processing,
3)Environmental Information Processing,
4)Cellular Processes,
5)Organismal Systems,
6)Human Diseases,
7)Drug Development。

其中 Metabolism 代谢通路这部分,又具体分为几个专题:
1)Global/overview,2)Carbohydrate,3)Energy,4)Lipid,5)Nucleotide,6)Amino acid,7)Other amino,8)Glycan,9)Cofactor/vitamin,10)Terpenoid/PK,11)Other secondary metabolite,12)Xenobiotics,13)Chemical structure。

从1)Global/overview,进入Metabolic pathways
网络通路图
http://www.genome.jp/kegg-bin/show_pathway?map01100

image.png

调整图片为100%,点击圆圈,进入三羧酸循环详细通路图
http://www.genome.jp/kegg-bin/show_pathway?map00630

image.png

点击其中一个酶,进入KO数据库,表示蛋白质或酶的分类体系。
KO号代表蛋白质(酶)的一个分类体系,序列高度相似,并且在同一个通路上有相同功能的蛋白质被归为一组,然后打上KO标签
http://www.genome.jp/dbget-bin/www_bget?C00036

查看Toll-like受体传导通路

Pathway Maps》Organismal Systems 》04620Toll-like receptor signaling pathway

http://www.genome.jp/kegg-bin/show_pathway?map=hsa04620&show_description=show

image.png

点击,TLR4受体
http://www.genome.jp/dbget-bin/www_bget?hsa:7099

查看引发疾病
Disease H00821 Age-related macular degeneration 黄斑变性

查看相关药物
Drug target Eritoran (DG01426): D04043 D09573

点击 D09573
http://www.genome.jp/dbget-bin/www_bget?dr:D09573

image.png

人类孟德尔遗传在线 OMIM

http://www.omim.org/ 或者NCBI子数据库 http://www.ncbi.nlm.nih.gov/omim

它是一个将遗传病分类并链接到相关人类基因组中的数据库。OMIM为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。

示例

  1. 搜索阿尔茨海默症,“alzheimer disease”,
    进入详情页
    http://www.omim.org/entry/104300?search=alzheimer%20disease&highlight=alzheimer%20disease
image.png

查看某一个染色体位置
http://www.omim.org/geneMap/6/127?start=-3&limit=10&highlight=127

image.png

查看某一个基因信息
http://www.omim.org/entry/613609

上一篇下一篇

猜你喜欢

热点阅读