豆花转录组第一小分队

生信星球转录组培训第一期Day3--郝志刚

2019-06-07  本文已影响6人  马连洼小法师

GEO数据库:基因表达仓库(Gene Expression Omnibus),来源于芯片数据、SAGE、高通量测序mRNA、IncRNA等。
数据存放:四种类型GSE、GSM、GPL、GDS

通过GSE号获得SRA(short Read Archive),里面包括原始数据、实验项目、实验设计、测序平台、样本数据等信息,结构如下:

(1)SRA里面存储整个项目的各种信息,可以看到用什么测序仪,多少RUN,数据量多少,进一步了解需要导出(按箭头操作)。


image.png

(2)获取编号


image.png

(3)服务器中存储编号
cat >srr.ids 选中复制编号,右键,enter回车,ctrl+c,粘贴完毕。

(4)配置下载软件
需要安装sra-tools ,aspera。

# 创建好后激活
conda activate RNA-seq
# 测试一下prefetch是否可以使用
prefetch #看出不出帮助文档即可,出来就是成功```
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹,有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help

(5)数据下载

cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done

image.png

附:踩坑记录
坑:下载SRA数据时prefetch默认下载通过https,速度感人,一个多小时一个文件都没下载完。
原因及解决:prefetch默认通过https,类似于网页下载,要通过aspera连用下载。它是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,相当于加速器。安装之后通过fasp下载。


image.png
上一篇 下一篇

猜你喜欢

热点阅读