数据下载说人话- 使用NCBI SRA Toolkit （1）

2019-12-10 本文已影响0人医学小蛋散

前言

数据下载还需要写专题？

不就是右键另存为“种子”，然后双击打开迅雷等1-2天吗 .......

好一个高端操作！

1.首先我们来理解一下，为什么要有迅雷？

种子文件几个b，我们使用了迅雷这个软件可视化地下载一个1-2G甚至是7-8G的“大数据”，还支持“断点续存”！很显然，这个是因为“文件太大”，不是你说右键另存为几秒就能解决的！

所以，对于基因组，这样的“大数据”，一个文件就2-3G（高清版“妇联”）了，动则10几个文件（20-30G），常常见100G，下载这样的数据，你看看如果换成一整部《甄嬛传》 OR 《延禧攻略》OR 《如懿传》，都起码下个1-2周吧？(对不起，生物信息的大数据不支持你下载的时候还能在线预览~)

为什么叫《延禧攻略》比叫《璎珞传》更加高明？

那还要从魏璎珞的出身说起，紫禁城东六宫包括景仁宫、承乾宫、钟粹宫、景阳宫、永和宫、延禧宫。不仅通过“延禧”指代了魏璎珞这个主角，还通过不受待见的延禧宫表现了女主的奋进历程......（似乎是每个领域大神的必经之路......)

2. 言归正传：生物信息的“迅雷”是什么呢？

没错，就是本文的主角"傻兔”(SRA Toolkit).

NCBI SRA Toolkit下载页面

网站：https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

当然，你可以用最粗暴的方法：

百度/Google ➡️ 查NCBI甚至是Pubmed➡️检索栏左边，点击下拉菜单，找SRA➡️回车search按钮，进入下面的页面，点击中间的第一个链接（Download SRA Toolkit）

下载页面

对于苹果用户：点击高亮的链接，下载（没错，这里就是小白最喜欢的右键另存为）（wget方法，就不在这文章说了，别吓到小白了）

下载苹果版的SRA Toolkit

下载完成：

打开所在文件夹

然后把文件拖到自己希望放的地方后，双击该文件解压（是的，MacBook是这样解压的）

是的，真正的小白是连软件放在bin文件夹中都不知道的

为什么要知道文件放在哪里？

不然，你怎样打开并使用软件？

cd到软件所在目录，然后输入“魔法口令”

prefetch SRAXXX

ERR673682就是你想要下载的数据了

下载的时候，会显示“Downloading xxx”

下载完成后，就会显示最下面一行的 ‘XXX’ was downloaded successfully

国内下载需要时间可能会比较长，这是国外下载的页面，2.6G数据需要10分钟多一点

人话1：是的，这里没有迅雷的显示进度条的！！！～

你只能够乖乖地等待下载完成。

人话2：下载软件只有迅雷（SRA Toolkit）吗？

当然不是！还有“比特彗星”/“快鸟”之类的，那就是aspera connect啦～

人话3：对于白到透红的小白，什么是Toolkit？

工具包：你家里的工具箱，甚至是化妆包/笔袋，里面，都不只一件东西吧？

Toolkit里面，肯定有很多东西的啦～

你看看，这个包（文件夹）里面，有辣～～～～～么多工具～

包的概念：想想你的书包，笔袋，化妆袋～

3.我在哪里找ERRXXX或者SRAXXX数据？

这个我就不多说了，

你可以在看文献时发现SRA号码，也可以直接在SRA数据库关键词找，也可以......

最终，去到一个类似的页面：

左下角，我高亮的部分

4.数据就会下载到一个自动生成的目录（地方），叫做ncbi

ncbi下面的目录

后记

好的，这里只是下载一个数据的例子。

小白，相信我，你真正的噩梦是：往往我们需要下载的是10多个，几十个数据，

意味着，我们是（几部+几部）✖️（《甄嬛传》+《延禧攻略》+《如懿传》）那样下载的～

以上，下回分解（点赞，给点动力呗）～