生信linux

数据库下载

2022-01-15  本文已影响0人  kangroomoon

OXFORD Journals 按照功能进行数据库分类

https://www.oxfordjournals.org
数据处理的本质:基于序列本身特征预测基因;无特征,而通过序列比对进行功能注释。

1、命令行下载

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz
- O 下载时重命名文件
- c 断点续传
- b 放到后台下载
- r 递归下载,用于下载整个目录
- i 从文件批量下载,将下载地址写入文件

2、flp下载 #较http 协议好

ncbi 的 ftp 地址为,ftp://ftp.ncbi.nlm.nih.gov/
embl 的 ftp 地址为:ftp://ftp.ensembl.org/pub/

mamba install -y lftp  #安装 
exit  #退出
lftp ftp://ftp.ncbi.nlm.nih.gov/
>>>ls  #列出列表,文件夹中有啥
>>>cd /blast/db
>>>megt swissprot.tar.gz  #下载文件
>>>mirror genomics/  #下载文件夹

也可以用xftp软件直接访问网址下载

3、aspera高速下载

安装aspera:不要使用conda下载,后面使用会出现问题

wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz  #下载
tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz  #解压
sh ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.sh  #运行
ln -s ~/biosoft/ibm-aspera-connect-3.9.9.177872/bin/aspera ./  #链接
#利用 aspera 下载数据
ascp -i .aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/swissprot.tar.gz ./
只需改动blast后面的:
blast/db/FASTA/ ./
blast/db/FASTA/nr.gz ./
pub/COG/ ./
blast/db/FASTA/nt.gz ./

anonftp@ftp.ncbi.nlm.nih.gov #账号
asperaweb_id_dsa.openssh #权限license

批量下载

1、通过NCBI的Batch entrez (Accession number, GI, GeenID)
send to, file, 下载AC号
新建一个txt文件,在Batchentrez中下载。
2、测序数据的下载:SRA数据库(二代测序数据)

Bioproject是一个项目(逐渐变大):
SRR  run号
SRX  experiments号
SRS  sample号
ERP/SRP  studies号

直接用命令下载:
找到Data access,通过谷歌云AWS和亚马逊云GCP

wget+地址

3、sratoolkit工具(不能使用conda安装)
(prefetch——下载SRA、fastq-dump——SRA到fastq,fasterq-dump——速度更快)
批量获得run号:点击run selector,Go,显示所有run的详细信息。Metadata下载列表,显示全部信息。

设定存储目录:~/Database/sequences/
prefetch SRRxxxxxxx -O ./  #默认创建一个ncbi文件夹,这里修改成当前文件夹
如果数据上传后还没移走,会使用aspera高速下载,一段时间后回移到sos出,高速下载就不可用了。
上一篇下一篇

猜你喜欢

热点阅读