step by step基因家族分析基因家族分析

Pfam

2018-03-20  本文已影响1205人  ZXia413

其实半懂,半懂最可怕

学毕

笔记分享如下(欢迎补充)

Pfam Pfam

* Pfam是什么?Pfam(http://pfam.sanger.ac.uk/)是一个大型的蛋白家族数据库,最新版本的Pfam数据库(31.0,2017年)包含了16712个蛋白家族的注释及基于隐马尔科夫模型(Hidden Markov models,HMMs)的多序列比对信息。

* Pfam能干什么 ?Pfam提供蛋白质家族和结构域的完整准确的分类,被广泛用于查询蛋白家族或蛋白结构域的注释,结构及其多序列比对信息。在该数据库中,每个蛋白家族由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据库建立,质量较高。Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域也是非常有用的。

* Pfam的结果怎么解读?

Pfam

序列搜索结果页以提问的这位同学发给我的截图为例:该蛋白比对到的是Pfam-A 数据库,结果靠谱。1)Family:蛋白家族名称;2)Description:蛋白家族描述;3)Entry type:类型;4)Clan:宗族(根据序列,结构,功能和HMM比较的相似度将多个蛋白家族整合为宗族),2005年首次将Clan引入Pfam;5)Envelope (From To):比对到的蛋白序列(the region on the sequence over which the match lies);6)Alignment(Start End):高置信度的比对蛋白序列(the region over which the alignment confidence is high);7)HMM (From To):比对到结构域区域;8)HMM length:Pfam结构域的长度;9)Bit Score:比对打分;10)E-value:比对的E值(pfam结构域筛选阈值为: E-value < 0.001);11)Predicted active sites:预测的活性位点。12)#HMM:与查询序列相同的残基显示为浅蓝色,与查询序列类似标记为深蓝色;13)#PP:每个氨基酸残基位点比对的后验概率(posterior probability),PP越高表示在HMM图谱中该位点比对的置信度越高;14)#SEQ,蛋白序列标记原则同#HMM。ps:Envelope区域与HMM length不匹配的比对被认为是局部比对。

参考文献

1) The Pfam protein families database: towards a more sustainable future: R.D. Finn, P. Coggill, R.Y. Eberhardt, S.R. Eddy, J. Mistry, A.L. Mitchell, S.C. Potter, M. Punta, M. Qureshi, A. Sangrador-Vegas, G.A. Salazar, J. Tate, A. Bateman

2) Pfam-Wikipedia.https://en.wikipedia.org/wiki/Pfam

上一篇 下一篇

猜你喜欢

热点阅读