【陪你学·生信】一些你肯定也用过的生信工具和操作(2)
2020-09-01 本文已影响0人
番茄随笔
二、提取蛋白质序列
利用PubMed搜索文献可以说是大家最常用的(还有镜像谷歌学术啥的,以及大学图书馆买的很多类似PubMed的检索数据库),接下来也很常用的就是在提取蛋白质序列,并从分子水平进行分析。下面介绍个好用的网站ExPASy:
是由是由SIB 瑞士生物信息研究所开发运营的,这里可以找到蛋白质组学,基因组学,系统发育 / 进化,系统生物学,种群遗传学和转录组学的数据资源。
继续我们在【一、学会用PubMed/NCBI等搜索数据库】中的举例,我们通过序列得知与dUTPase相似,又在PubMed中找到了对应文献,现在我们想更了解它一些,准备从网上下载一些发挥dUTPase功能的蛋白质序列。我们假设找大肠杆菌中的dUTPase功能的蛋白序列。
(1)打开网站https://www.expasy.org/
(2)在合适的数据库中搜索【dUTPasecoli】关键词
会看到一系列序列,我们点进去第一个P06968,就可以看到大肠杆菌中这个蛋白的很多详细信息啦。
内容相当丰富,介绍了蛋白功能,名称,分类,亚细胞定位,序列(可以下载FASTA文件),结构,相似蛋白等。
如果要下载多序列进行比对分析,勾选下载即可。
与所有检索数据库类似,关键词栏可以加各种高级设定缩小范围。举例中我们用的Advanced Search in the UniProt Knowledgebase中的数据由两部分构成。分别是TrEMBL和 Swiss-Prot,其中Swiss-Prot是从文献中提取的结果,另一个是计算机分析翻译的DNA序列,所以一般我们用filter by Swiss-Prot的数据。