R语言做生信

如何下载文章提供的测序数据

2019-03-07  本文已影响17人  Dayueban

导读

平时看文章,特别是组学文章,作者在文末都会提供其研究材料中高通量测序数据的下载链接,如果平时想练手的话,下载这些数据是最好不过了,下面我就总结下如何从GEO和SRA中下载作者提供的数据。

GEO或者SRA编号获取

1.以文章 “AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors为例

图一 图二

2.根据提供的这个编号,首先打开GEO网页,链接:https://www.ncbi.nlm.nih.gov/geo/

图三

GEO包括三个层次:GSM(样本编号),GLP(检测平台),GSE(基因数据结果)

下载方法1:

图四

GSE一般是测序后的原始数据,下载后解压即可。

tar GSE81916_RAW.tar #先用tar解压,得到以.gz结尾的文件
gunzip *gz ##再用gunzip解压所有文件

下载方法2:

(可以通过ByStudy和ByRun两种方式,不过好像ncbi的sra目录下现在只有ByRun这个文件夹了)jobs

图五
for ((i=948;i<=962;i++)) ; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR3589$i/SRR3589$i.sra;done

备注:上面的方法不能用了,现在用下面这个心的下载方式

for ((i=948;i<=962;i++));do wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR358${i}/SRR358${i}.sra --no-check-certificate;done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump –split-3 $id;done
ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

3.如果是文章中提供的是SRP编号,那么直接用ftp的网址:ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP根据编号找到文章中特定的SRP号码,一级级往下。

图六 图七 图八 图九

然后将获得的这个SRP100446编号去获得底部的SRR编号[https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/)该链接里一级级往下找对应的数字。找到后用上面提到的脚本下载,然后解压成fastq格式,即大功告成。

结语

以上就是我们平时在阅读文献中可能遇到的两种最主要的数据下载途径,还等什么,赶紧操练起来

上一篇 下一篇

猜你喜欢

热点阅读