生物数据分析基因组组装生信log

生信log12|"Dataset"-NCBI批量下载基因组数据新

2021-08-08  本文已影响0人  小周的万用胶囊

写在前言,虽然笔主真的很喜欢几行命令行就能解决很多重复劳动,但本人还是被傻瓜式软件吃得死死的,哎真香。在此介绍一下 NCBI官网自己新出的一个批量下载物种基因组信息的网页和其命令行软件,以供萌新参考。

另NCBI其实出了很多工具是能用于批量作业的,如批量下载蛋白序列,不用太多编程的知识,小白如果能够善用NCBI的工具,初接触生物信息学时也能事半功倍,对NCBI的工具不少生信大佬也出过不少教程的文章

NCBI datasets入口

新工具看点
datasets 浏览基因组

教程部分

网页下载

到这篇文章发出来的时候,页面工具已经完善了好多

assemblies_download 老方法 datasets 网页下载
终端命令行下载软件和安装
二进制文件下载
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/datasets'
curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/dataformat'


chmod +x /your_dir/dataset
命令行的基本使用
# 仅下载核苷酸序列的命令,命令太长了
datasets download genome taxon taxon_number \
--filename species_name.zip --exclude-gff3 --exclude-protein \
--exclude-rna


笔主python水平有限,而且linux的命令更加简洁(我喜欢😘),迟点探索了再另开一篇分享。

下载的结果

命令行下载结果
没错,如果没有选择特定下载文件的话,它会帮你把所有基因组相关信息都下载下来,包括核苷酸序列 datasets_results1.png dataset_result2.png

检查数据的完整度⚠️这步很重要

处理方法:先打开文件夹,看总共有多少个文件

网页版datasets的下载结果 download assemblies的结果

命令行统计路径下的文件数量:

ls -lh|wc -l
评价&&坑点

解决办法就是升级系统内的anaconda,让anaconda的版本变成最高级,或者export 最新的openssL路径到终端

除了找个稳定的网络以外也没有太多的办法了,或者在校有条件的申请国外的服务器


参考

NCBI command line quickstart的官网手册

某乎地址:
某乎上附有操作视频,还请多多支持!

写得贼累,各位看官路过赏个素质三连呗~

上一篇下一篇

猜你喜欢

热点阅读