(2)转录组之数据获取

2017-07-23 本文已影响791人 2112a27c490c

一、文章

文章获取
在网络上查找文章通常有很多方法，如何想上google或Google scholar查找资料可以查看我另一篇文章《linux翻&墙（hosts版）》中提供的方法。

以下提供几种特色搜索引擎

pubmed 搜索强大最常用
pubmed.cn 通过求助获得全文
pubmedplus 可以显示期刊影响因子并有全文链接
GCBI 可以过滤出包含大数据（GEO）的文章
researchgate 可跟踪作者研究并可获得部分全文
sci-hub 免费全文神器

阅读文章
从文章的Data availability条目下面我们可以看到作者将数据上传到了GEO并且提供了GEO号，我们就可以从这个号入手去获取原始数据

二、数据

追踪数据
打开GEO主页将GSE81916放入搜索框检索，可以得到该研究的概览
GEO :Gene Expression Omnibus

观察数据总体描述

根据描述我们知道了做mRNA分析我们只需要下载9-15号样本

点开Samples我们可以看到具体的样本

再往下看可以发现关联的SRA号, Sequence Read Archive(SRA)从名称就知道这个数据储存的归属地

从SRA获取样本测序号
进入SRA检索上面查到的SRA号（SRP075747）

我们这次只需勾选需要下载的数据条目（9-15），点击Accesion List下载得到SRR_Acc_List.txt（内容其实就是几个run的编号）

这里能看到数据的大小以及数据的其他相关信息，比如sample name和我们之前的一一对应，从这表格上可以看出9-15号样本对应的run号是哪几条。

下载数据

方法1：

使用sra官方方法

source activate biosoft #首先得先激活我们安装了sra-tools的那个环境，我这里是biosoft。
prefetch --option-file ~/Downloads/SRR_Acc_List.txt #数据保存在～/ncbi/public文件夹中，链接

下载储存位置
参考从SRA获取数据官方文档

额外配置：有些人可能和我一样给linux分的硬盘空间并不是很多（我是50G），有时数据大放不下，就需要挂载剩余的分区

sudo fdisk -l #先查看自己的硬盘空间

我目前的硬盘，相信你的肯定不一样，但方法通用

sudo mount /dev/sda6 ~/Space/space02 #我将sda6分区挂载到space02目录下， ~/Space/space02这个文件夹是我目标目录，你们可以自己选择方便的目标目录进行挂载，方便以后访问查看数据就是啦
取消挂载是sudo umount /dev/sda6

空间准备好后，我们还需要更改sra-tools的默认下载目录

vdb-config -i

出现如下窗口

用键盘操作更改workspace位置

更改好之后ESC退出，然后再用prefetch 下载数据

一条代码下去就开始了愉快的下载数据了
一杯咖啡过后～～～～～～～～～～～～～
什么？啥也没得到(都是些不完整的文件)，看了看终端网络报错

下载个小文件测试下

prefetch SRR390728

一小会后成功下载，并且prefetch 会自动下载依赖，粗看下好像是参考序列

看来是直接下大数据是不行的了，用Aspera吧，专为大数据下载提供方案。推荐使用aspera的情况

确定了使用aspera作为下载方式后，首先是下载程序并安装。参考博文

wget http://d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.7.2.141527-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.2.141527-linux-64.tar.gzf
bash aspera-connect-3.7.2.141527-linux-64.sh
export PATH= ~/.aspera/connect/bin:$PATH # 这里是临时添加只针对当前终端生效，或者修改～/.bashrc永久添加

aspera安装结束，重新用sra-tools中的prefetch并带上aspera选项下载数据

prefetch --help #查看aspera用法

按提示写好完整代码

prefetch -t fasp -a "_{/.aspera/connect/bin/ascp|}/.aspera/connect/etc/asperaweb_id_dsa.putty" SRR390728

结果要提供passphrase,

郁闷，找解决方案，修改代码如下

prefetch -t fasp -a "/home/zeyy/.aspera/connect/bin/ascp|/home/zeyy/.aspera/connect/etc/asperaweb_id_dsa.openssh" SRR390728 #将秘钥从putty改成了openssh，后来查了文档知道了新版本的aspera都使用openssh秘钥

测试小文件下载成功后，开始下载需要的SRR

prefetch -t fasp -a "/home/zeyy/.aspera/connect/bin/ascp|/home/zeyy/.aspera/connect/etc/asperaweb_id_dsa.openssh" --option-file ~/Downloads/SRR_Acc_List.txt

速度快了不是一点点我这基本2M/s，你们带宽比较大的应该更加快。我10G全部下完花费2h，平均1.5M/s不到点，已经比wget FTP快很多了

(2)转录组之数据获取

一、文章

二、数据

方法1：

方法2：待写

猜你喜欢

热点阅读