生信log

生信log33|下载aws亚马逊云存储桶中的基因组公开数据集-g

2023-03-21  本文已影响0人  小周的万用胶囊

最近需要下载多个数据库,随着云产品的兴起,越来越多数据库提供了不同云厂商桶(bucket)的下载地址,要想探索在也可以去aws s3 , microsoft的azure云存储官网看看。这篇记录怎么用aws的命令行工具下载公开数据集

首先重要事情:公开数据集的下载并不需要用到aws的key还有region的信息,也不需要用户信息配置文件,所以不要傻乎乎去申请什么aws的账号。

1、gnomad的公开数据集

gnomad的云存储数据集

2、安装aws s3的工具

#conda安装,为防止软件版本冲突单独开个软件
conda create -n aws --y
conda install -c conda-forge awscli --y

3、查看数据集

aws s3 ls --no-sign-request s3://1000genomes/

                           PRE 1000G_2504_high_coverage/
                           PRE alignment_indices/
                           PRE changelog_details/
                           PRE complete_genomics_indices/
                           PRE data/
                           PRE hgsv_sv_discovery/
                           PRE phase1/
                           PRE phase3/
                           PRE pilot_data/
                           PRE release/
                           PRE sequence_indices/
                           PRE technical/
#下载数据集,跟一般shell命令不一样
 aws s3 --no-sign-request cp s3://gnomad-public-us-east-1/release/3.1/vcf/genomes/gnomad.genomes.v3.1.sites.chrY.vcf.bgz dest_dir

4、其他&注意事项


gnomad

上一篇 下一篇

猜你喜欢

热点阅读