蛋白序列的查找比对和同源性分析
这里以人类的Arl8b蛋白为例,目的是找出这个蛋白在其所在Small GTPase家族中与其它同族蛋白的相似性,并且绘制谱系发育树。
1.找到目的蛋白质序列和所在家族中不同subfamily的代表蛋白的序列
因为现在只比较人类基因组中的情况。所以只要在人类基因组数据库中搜索Arl8b就能找到了。
https://www.genenames.org以fasta的格式拷贝到txt文档中,用同样的流程把同家族的subfamily的代表蛋白。
将txt格式变为fas格式(只需将文件名的.txt改为.fas即可)
打开NCBI蛋白分析工具中的COBALT,导入刚才保存好的.fas文件,并点击Align
https://www.ncbi.nlm.nih.gov/tools/cobalt/re_cobalt.cgi#等待其完成运算后出现如下界面,点击右上角Phylogenetic tree.
出现如下界面,然后选择Max Seq difference 和Distance参数(箭头),然后点击Tools在下拉菜单中下载选择Newick file格式,保存文件)
将Newick file文件拖拽到mega软件中打开,并且选择Circle图形
可以在View中选择Option来调整字体,分支线和比例尺的格式。然后菜单栏中点击image保存为需要的格式。
从结果中我们可以看到虽然Arl8a和8b同在ARF subfamily一支,但是同ARF和其它AFL还是有区别,具体的区别在哪里,我还不太清楚怎么看,如果有知道的朋友可以留言。
在COBALT结果中,我们可以把比对的结果下载下来,然后用genedoc软件绘制多重序列比对图(参考:https://www.jianshu.com/p/d1542ef55326)
文件末尾以.aln结尾也没关系的,你甚至可以指直接更改为.fas也可以。反正都可以被genedoc读取。结果大概就是这样啦
然后你可以根据这个家族蛋白已知的motif及对应的功能做进一步的差异分析。一些重要的蛋白的突变定位三维结构等信息在uniport网站上都有,有必要的话可以综合起来分析的。