数据下载说人话- 使用NCBI SRA Toolkit (1)
前言
数据下载还需要写专题?
不就是右键另存为“种子”,然后双击打开迅雷等1-2天吗 .......
好一个高端操作!
1.首先我们来理解一下,为什么要有迅雷?
种子文件几个b,我们使用了迅雷这个软件可视化地下载一个1-2G甚至是7-8G的“大数据”,还支持“断点续存”! 很显然,这个是因为“文件太大”,不是你说右键另存为几秒就能解决的!
所以,对于基因组,这样的“大数据”,一个文件就2-3G(高清版“妇联”)了,动则10几个文件(20-30G),常常见100G,下载这样的数据,你看看如果换成一整部《甄嬛传》 OR 《延禧攻略》OR 《如懿传》,都起码下个1-2周吧?(对不起,生物信息的大数据不支持你下载的时候还能在线预览~)
为什么叫《延禧攻略》比叫《璎珞传》更加高明?那还要从魏璎珞的出身说起,紫禁城东六宫包括景仁宫、承乾宫、钟粹宫、景阳宫、永和宫、延禧宫。不仅通过“延禧”指代了魏璎珞这个主角,还通过不受待见的延禧宫表现了女主的奋进历程......(似乎是每个领域大神的必经之路......)
2. 言归正传:生物信息的“迅雷”是什么呢?
没错,就是本文的主角"傻兔”(SRA Toolkit).
NCBI SRA Toolkit下载页面网站:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
当然,你可以用最粗暴的方法:
百度/Google ➡️ 查NCBI甚至是Pubmed➡️检索栏左边,点击下拉菜单,找SRA➡️回车search按钮,进入下面的页面,点击中间的第一个链接(Download SRA Toolkit)
下载页面对于苹果用户:点击高亮的链接,下载(没错,这里就是小白最喜欢的右键另存为)(wget方法,就不在这文章说了,别吓到小白了)
下载苹果版的SRA Toolkit下载完成:
打开所在文件夹然后把文件拖到自己希望放的地方后,双击该文件解压(是的,MacBook是这样解压的)
是的,真正的小白是连软件放在bin文件夹中都不知道的为什么要知道文件放在哪里?
不然,你怎样打开并使用软件?cd到软件所在目录,然后输入“魔法口令”
ERR673682就是你想要下载的数据了prefetch SRAXXX
下载的时候,会显示“Downloading xxx”
下载完成后,就会显示最下面一行的 ‘XXX’ was downloaded successfully
国内下载需要时间可能会比较长,这是国外下载的页面,2.6G数据需要10分钟多一点人话1:是的,这里没有迅雷的显示进度条的!!!~
你只能够乖乖地等待下载完成。
人话2:下载软件只有迅雷(SRA Toolkit)吗?
当然不是! 还有“比特彗星”/“快鸟”之类的,那就是aspera connect啦~
人话3:对于白到透红的小白,什么是Toolkit?
工具包:你家里的工具箱,甚至是化妆包/笔袋,里面,都不只一件东西吧?
Toolkit里面,肯定有很多东西的啦~你看看,这个包(文件夹)里面,有辣~~~~~么多工具~
包的概念:想想你的书包,笔袋,化妆袋~3.我在哪里找ERRXXX或者SRAXXX数据?
这个我就不多说了,
你可以在看文献时发现SRA号码,也可以直接在SRA数据库关键词找,也可以......
最终,去到一个类似的页面:
左下角,我高亮的部分4.数据就会下载到一个自动生成的目录(地方),叫做ncbi
ncbi下面的目录后记
好的,这里只是下载一个数据的例子。
小白,相信我,你真正的噩梦是:往往我们需要下载的是10多个,几十个数据,
意味着,我们是(几部+几部)✖️(《甄嬛传》+《延禧攻略》+《如懿传》)那样下载的~
以上,下回分解 (点赞,给点动力呗)~