(2)转录组之数据获取
一、文章
文章获取
在网络上查找文章通常有很多方法,如何想上google或Google scholar查找资料可以查看我另一篇文章《linux翻&墙(hosts版)》中提供的方法。
以下提供几种特色搜索引擎
- pubmed 搜索强大最常用
- pubmed.cn 通过求助获得全文
- pubmedplus 可以显示期刊影响因子并有全文链接
- GCBI 可以过滤出包含大数据(GEO)的文章
- researchgate 可跟踪作者研究并可获得部分全文
- sci-hub 免费全文神器
阅读文章
从文章的Data availability条目下面我们可以看到作者将数据上传到了GEO并且提供了GEO号,我们就可以从这个号入手去获取原始数据
![](https://img.haomeiwen.com/i6415735/bf63d5ab4b73b0e0.png)
二、数据
追踪数据
打开GEO主页将GSE81916放入搜索框检索,可以得到该研究的概览
GEO :Gene Expression Omnibus
观察数据总体描述
根据描述我们知道了做mRNA分析我们只需要下载9-15号样本
点开Samples我们可以看到具体的样本
![](http://upload-images.jianshu.io/upload_images/6415735-f45b69397b1457ca.png)
再往下看可以发现关联的SRA号, Sequence Read Archive(SRA)从名称就知道这个数据储存的归属地
![](http://upload-images.jianshu.io/upload_images/6415735-271806f110b6e946.png)
从SRA获取样本测序号
进入SRA检索上面查到的SRA号(SRP075747)
![]()
我们这次只需勾选需要下载的数据条目(9-15),点击Accesion List下载得到SRR_Acc_List.txt(内容其实就是几个run的编号)
这里能看到数据的大小以及数据的其他相关信息,比如sample name和我们之前的一一对应,从这表格上可以看出9-15号样本对应的run号是哪几条。
下载数据
方法1:
使用sra官方方法
source activate biosoft #首先得先激活我们安装了sra-tools的那个环境,我这里是biosoft。
prefetch --option-file ~/Downloads/SRR_Acc_List.txt #数据保存在~/ncbi/public文件夹中,链接
下载储存位置
参考 从SRA获取数据 官方文档
额外配置:有些人可能和我一样给linux分的硬盘空间并不是很多(我是50G),有时数据大放不下,就需要挂载剩余的分区
sudo fdisk -l #先查看自己的硬盘空间
我目前的硬盘,相信你的肯定不一样,但方法通用
sudo mount /dev/sda6 ~/Space/space02 #我将sda6分区挂载到space02目录下, ~/Space/space02这个文件夹是我目标目录,你们可以自己选择方便的目标目录进行挂载,方便以后访问查看数据就是啦
取消挂载是sudo umount /dev/sda6
空间准备好后,我们还需要更改sra-tools的默认下载目录
vdb-config -i
出现如下窗口
用键盘操作更改workspace位置
更改好之后ESC退出,然后再用prefetch 下载数据
一条代码下去就开始了愉快的下载数据了
一杯咖啡过后~~~~~~~~~~~~~
什么?啥也没得到(都是些不完整的文件),看了看终端网络报错
下载个小文件测试下
prefetch SRR390728
一小会后成功下载,并且prefetch 会自动下载依赖,粗看下好像是参考序列
看来是直接下大数据是不行的了,用Aspera吧,专为大数据下载提供方案。推荐使用aspera的情况
确定了使用aspera作为下载方式后,首先是下载程序并安装 。 参考博文
wget http://d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.7.2.141527-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.2.141527-linux-64.tar.gzf
bash aspera-connect-3.7.2.141527-linux-64.sh
export PATH= ~/.aspera/connect/bin:$PATH # 这里是临时添加只针对当前终端生效,或者修改~/.bashrc永久添加
aspera安装结束,重新用sra-tools中的prefetch并带上aspera选项下载数据
prefetch --help #查看aspera用法
按提示写好完整代码
prefetch -t fasp -a "/.aspera/connect/bin/ascp|/.aspera/connect/etc/asperaweb_id_dsa.putty" SRR390728
结果要提供passphrase,
郁闷,找解决方案,修改代码如下
prefetch -t fasp -a "/home/zeyy/.aspera/connect/bin/ascp|/home/zeyy/.aspera/connect/etc/asperaweb_id_dsa.openssh" SRR390728 #将秘钥从putty改成了openssh,后来查了文档知道了新版本的aspera都使用openssh秘钥
测试小文件下载成功后,开始下载需要的SRR
prefetch -t fasp -a "/home/zeyy/.aspera/connect/bin/ascp|/home/zeyy/.aspera/connect/etc/asperaweb_id_dsa.openssh" --option-file ~/Downloads/SRR_Acc_List.txt
速度快了不是一点点我这基本2M/s, 你们带宽比较大的应该更加快。 我10G全部下完花费2h,平均1.5M/s不到点,已经比wget FTP快很多了