生信

(2)转录组之数据获取

2017-07-23  本文已影响791人  2112a27c490c

一、文章

文章获取
在网络上查找文章通常有很多方法,如何想上google或Google scholar查找资料可以查看我另一篇文章《linux翻&墙(hosts版)》中提供的方法。

以下提供几种特色搜索引擎

阅读文章
从文章的Data availability条目下面我们可以看到作者将数据上传到了GEO并且提供了GEO号,我们就可以从这个号入手去获取原始数据

二、数据

追踪数据
打开GEO主页将GSE81916放入搜索框检索,可以得到该研究的概览
GEO :Gene Expression Omnibus

观察数据总体描述

根据描述我们知道了做mRNA分析我们只需要下载9-15号样本

点开Samples我们可以看到具体的样本



再往下看可以发现关联的SRA号, Sequence Read Archive(SRA)从名称就知道这个数据储存的归属地


从SRA获取样本测序号
进入SRA检索上面查到的SRA号(SRP075747)

我们这次只需勾选需要下载的数据条目(9-15),点击Accesion List下载得到SRR_Acc_List.txt(内容其实就是几个run的编号)

这里能看到数据的大小以及数据的其他相关信息,比如sample name和我们之前的一一对应,从这表格上可以看出9-15号样本对应的run号是哪几条。

下载数据

方法1:

使用sra官方方法

source activate biosoft #首先得先激活我们安装了sra-tools的那个环境,我这里是biosoft。
prefetch --option-file ~/Downloads/SRR_Acc_List.txt #数据保存在~/ncbi/public文件夹中,链接

下载储存位置
参考 从SRA获取数据 官方文档

额外配置:有些人可能和我一样给linux分的硬盘空间并不是很多(我是50G),有时数据大放不下,就需要挂载剩余的分区

sudo fdisk -l #先查看自己的硬盘空间

我目前的硬盘,相信你的肯定不一样,但方法通用

sudo mount /dev/sda6 ~/Space/space02 #我将sda6分区挂载到space02目录下, ~/Space/space02这个文件夹是我目标目录,你们可以自己选择方便的目标目录进行挂载,方便以后访问查看数据就是啦
取消挂载是sudo umount /dev/sda6

空间准备好后,我们还需要更改sra-tools的默认下载目录

vdb-config -i

出现如下窗口

用键盘操作更改workspace位置

更改好之后ESC退出,然后再用prefetch 下载数据


一条代码下去就开始了愉快的下载数据了
一杯咖啡过后~~~~~~~~~~~~~
什么?啥也没得到(都是些不完整的文件),看了看终端网络报错

下载个小文件测试下

prefetch SRR390728

一小会后成功下载,并且prefetch 会自动下载依赖,粗看下好像是参考序列

看来是直接下大数据是不行的了,用Aspera吧,专为大数据下载提供方案。推荐使用aspera的情况

确定了使用aspera作为下载方式后,首先是下载程序并安装 。 参考博文

wget http://d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.7.2.141527-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.2.141527-linux-64.tar.gzf
bash aspera-connect-3.7.2.141527-linux-64.sh
export PATH= ~/.aspera/connect/bin:$PATH # 这里是临时添加只针对当前终端生效,或者修改~/.bashrc永久添加

aspera安装结束,重新用sra-tools中的prefetch并带上aspera选项下载数据

prefetch --help #查看aspera用法

按提示写好完整代码

prefetch -t fasp -a "/.aspera/connect/bin/ascp|/.aspera/connect/etc/asperaweb_id_dsa.putty" SRR390728

结果要提供passphrase,

郁闷,找解决方案,修改代码如下

prefetch -t fasp -a "/home/zeyy/.aspera/connect/bin/ascp|/home/zeyy/.aspera/connect/etc/asperaweb_id_dsa.openssh" SRR390728 #将秘钥从putty改成了openssh,后来查了文档知道了新版本的aspera都使用openssh秘钥

测试小文件下载成功后,开始下载需要的SRR

prefetch -t fasp -a "/home/zeyy/.aspera/connect/bin/ascp|/home/zeyy/.aspera/connect/etc/asperaweb_id_dsa.openssh" --option-file ~/Downloads/SRR_Acc_List.txt

速度快了不是一点点我这基本2M/s, 你们带宽比较大的应该更加快。 我10G全部下完花费2h,平均1.5M/s不到点,已经比wget FTP快很多了

方法2:待写
上一篇 下一篇

猜你喜欢

热点阅读