数据下载
在画进化树或者进行某个基因家族分析之前我们首先需要下载用到的物种的相关数据(蛋白质数据或者基因组数据)
数据下载的方法:
1.phytozome
2.ensemble plants
3.NCBI
4.各自的数据库
5.发表的文章中的数据
1. 在phytozome 上面搜索下载 phytozome
phytozome上下载数据需要先登陆,有账号的直接登陆,没有的先注册然后登陆
phytozome1.png
下载方式有两种:
第一种——根据物种的拉丁名先找到相应的物种然后跳转到对应的物种的页面
phytozome2.png
选择Bulk data 即可条状到该物种的相应数据的下载界面,选择需要的数据下载即可
phytozome3.png
第二种——直接点击Download,跳转到相应的下载页面,选择最新的版本PhytozomeV12,点击下拉文件夹然后按照物种拉丁名选择相应的物种,再选择需要的数据类型选择好之后点击 Download Selected Files下载选择好的数据即可(目前不知道如何下载到服务器中嗐.好的原来是关闭了这个服务,那没事了)
phytozome4.png
2. ensemble Plants(ensemble 是一个很大的综合的数据库,然后因为关注的主要是植物,所以就要用的是植物版本的) EnsemblePlants
进入网址之后点击downloads,就会出现很多的物种数据信息,可以自行选择显示十个或者全部
选择需要下载的物种以及序列信息(我们用的是蛋白质,所以就选择蛋白质一栏下面的FASTA)
ensembl.1.png
此时我们并不能直接下载,因为对应的链接是一个文件夹,我们需要点开这个文件夹,然后进去之后选择我们需要的数据
ensembl.2.png选择全部的蛋白信息(此时有两种下载方法:第一直接点击链接下载;第二复制链接地址然后下载到服务器中)
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-49/fasta/arabidopsis_thaliana/pep/Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
# 用wget 下载,-c 是断点续传
gunzip Arabidopsis_thaliana.TAIR10.pep.all.fa.gz
# 将下载的数据解压开
3.NCBI NCBI
众所周知,NCBI是一个超级全的数据库,但是有个问题就是NCBI会对收录的数据进行重新编号,所以在使用NCBI上下载的数据的时候需要谨慎
进入NCBI,然后根据我们需要下载的数据去搜索,比如这次我搜索的是菠萝的基因组文件,就先选择genome,然后输入菠萝的拉丁名search,就可以得到需要的信息,根据我们研究的目的去下载相应的数据
ncbi.png下载方法还是两种:
第一种——直接下载到本地,直接点击需要的数据或者右键选择链接另存为
第二种——下载到服务器中,右键选择复制链接地址,然后到服务器中用wget下载即可
4. 每个物种自己的数据库(有些物种是有自己的单独的数据库的比如说拟南芥)
拟南芥有个单独的数据库tair tair
进入之后可以点击download找到需要的数据类型比如蛋白质或者基因组等,然后跳转到相应的下载界面,之后就可以下载(但是听说这样得不到需要的数据,然后听人劝吃饱饭我就放弃这个方法)
tair2.png
5.已经发表的文章
直接搜索相应的文章然后去到文章里面找数据下载(今日份学到有时候文章可以直接在百度中搜索,这样的话还可以直接打开全文)
一些其他可能会用到的数据库
- 杨树整合数据库 popgenie
- 蔷薇科数据库 GDR
- 被子植物基因组数据 GDA:Genome Database for Angiosperms
- 胡桃科数据库(强推!!!课题组师兄做的)PJU
基因组数据库汇总推文
偶然在公众号发现了这篇推文,简直太优秀了,赶紧收藏整理分享起来哈哈哈,我就是个友情的搬运机器
里面除了一些综合的数据库之外,还有很多的单个物种的数据库,比如说水稻、马铃薯、百脉根、棉花、菠萝等