如何在NCBI批量下载基因家族序列?
在做生信下游基因分析的时候,我们通常需要下载兴趣基因的序列信息构建进化书什么的,如果兴趣基因比较少,那么可以直接在NCBI上搜索这个基因下载序列。但如果兴趣基因很多,如果逐个下载就会很麻烦了。这时候我们会很渴望一个可以批量下载基因序列的方法,那么,在不涉及到编程的情况下,这里推荐用NCBI自带的Batch entrez进行序列的批量下载。
举个栗子🌰:师姐让帮忙下载拟南芥PP2C家族的全部蛋白序列,可以通过以下步骤实现:
→获取拟南芥PP2C家族的全部基因信息
这一步骤可以在Tair上实现,首先打开Tair网站,通过Browse选项找到gene family,找到PP2C基因家族,点进去发现PP2C家族有76个基因,Tair上还贴心地列出了参考文献和基因分组。
Screenshot 2020-04-20 at 11.47.41.png Screenshot 2020-04-20 at 11.49.34.png Screenshot 2020-04-20 at 11.49.50.png
初步了解PP2C家族的信息后,如果关注某一个基因可以直接点进去看。举例点开AHG1这个基因,可以看到这个基因的详细信息。如果要下载这个基因的蛋白序列可以通过点击protein选项获取基因序列,点击Send to Blast按扭,在弹出的页面中可以直接复制该序列粘贴到文本文件中去。这样就获得了AHG1基因的序列信息。
Screenshot 2020-04-20 at 11.54.08.png Screenshot 2020-04-20 at 11.54.38.png Screenshot 2020-04-20 at 11.55.31.png
上面这个方法是针对单个基因序列的。但如果想要下载全部PP2C基因家族的信息那就很繁琐了,而且很容易出错,网络不好的时候还容易气到自己。所以下面给大家推荐一个NCBI自带的批量下载基因序列的软件Batchentrez。
Tair上提供了下载全集拟南芥基因家族信息的选项,我们先去把PP2C家族基因的accession numbers下载下来便于后续Batchentrez的分析。
首先点开Tair上的Download-Gene选项,点进去发现可以直接下载拟南芥全部基因家族信息,右键点击下载后会得到一个txt文件,用Excel打开后,通过筛选就可以看到全部PP2C家族的基因信息了。同样的这个表格中给出了每个基因的accession numbers(表格中给的名字是Refseq_ID),复制PP2C家族基因的全部accession numbers,保存在一个txt文件里。
Screenshot 2020-04-20 at 12.02.36.png Screenshot 2020-04-20 at 12.05.11.png Screenshot 2020-04-20 at 12.10.35.png Screenshot 2020-04-20 at 12.12.32.png
→Batchentrez进行序列批量下载
下面的步骤都转移到NCBI网站上进行。打开Batchentrez页面,点击Choose File选项上传我们刚刚创建的txt格式的文件,然后因为我们要下载的是蛋白序列,所以Database选项选protein,然后点击Retrieve选项。
Screenshot 2020-04-20 at 12.14.32.png Screenshot 2020-04-20 at 12.18.06.png Screenshot 2020-04-20 at 12.19.02.pngbatchentrez会检查文件中序列ID信息,并且会去除重复,返回检索结果,如果有检索不到的序列会reject,在这里我们的序列都被检索到了,点击最下方的链接选项。
可以看到我们检索的所有76个PP2C家族基因信息都列出来了。点击上方的Send to选项,选择file,fasta格式,然后点击Creat File选项就大功告成啦~
点击后网站会提醒你下载文件,点击下载后会得到一个txt文件,这里就是我们全部基因的蛋白序列信息啦~
Screenshot 2020-04-20 at 12.25.20.png Screenshot 2020-04-20 at 12.28.00.png
参考资源:
- 生物信息神奇网站系列(九):批量下载序列
链接:https://zhuanlan.zhihu.com/p/35850918
来源:知乎