数据库下载
2022-01-15 本文已影响0人
kangroomoon
OXFORD Journals 按照功能进行数据库分类
https://www.oxfordjournals.org
数据处理的本质:基于序列本身特征预测基因;无特征,而通过序列比对进行功能注释。
1、命令行下载
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz
- O 下载时重命名文件
- c 断点续传
- b 放到后台下载
- r 递归下载,用于下载整个目录
- i 从文件批量下载,将下载地址写入文件
2、flp下载 #较http 协议好
ncbi 的 ftp 地址为,ftp://ftp.ncbi.nlm.nih.gov/
embl 的 ftp 地址为:ftp://ftp.ensembl.org/pub/
mamba install -y lftp #安装
exit #退出
lftp ftp://ftp.ncbi.nlm.nih.gov/
>>>ls #列出列表,文件夹中有啥
>>>cd /blast/db
>>>megt swissprot.tar.gz #下载文件
>>>mirror genomics/ #下载文件夹
也可以用xftp软件直接访问网址下载
3、aspera高速下载
安装aspera:不要使用conda下载,后面使用会出现问题
wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz #下载
tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz #解压
sh ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.sh #运行
ln -s ~/biosoft/ibm-aspera-connect-3.9.9.177872/bin/aspera ./ #链接
#利用 aspera 下载数据
ascp -i .aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/swissprot.tar.gz ./
只需改动blast后面的:
blast/db/FASTA/ ./
blast/db/FASTA/nr.gz ./
pub/COG/ ./
blast/db/FASTA/nt.gz ./
anonftp@ftp.ncbi.nlm.nih.gov #账号
asperaweb_id_dsa.openssh #权限license
批量下载
1、通过NCBI的Batch entrez (Accession number, GI, GeenID)
send to, file, 下载AC号
新建一个txt文件,在Batchentrez中下载。
2、测序数据的下载:SRA数据库(二代测序数据)
Bioproject是一个项目(逐渐变大):
SRR run号
SRX experiments号
SRS sample号
ERP/SRP studies号
直接用命令下载:
找到Data access,通过谷歌云AWS和亚马逊云GCP
wget+地址
3、sratoolkit工具(不能使用conda安装)
(prefetch——下载SRA、fastq-dump——SRA到fastq,fasterq-dump——速度更快)
批量获得run号:点击run selector,Go,显示所有run的详细信息。Metadata下载列表,显示全部信息。
设定存储目录:~/Database/sequences/
prefetch SRRxxxxxxx -O ./ #默认创建一个ncbi文件夹,这里修改成当前文件夹
如果数据上传后还没移走,会使用aspera高速下载,一段时间后回移到sos出,高速下载就不可用了。