GEO的SRA|fastq下载
2019-03-14 本文已影响80人
Juan_NF
GEO的各种英文缩写
GPL GEO Platform 平台
GSE GEO Series
SRA-----Sequence Read Archive
存档来自高通量测序平台的原始测序数据和比对信息,包括Roche 454GSSystem®,Illumina GenomeAnalyzer®,Applied BiosystemsSOLiDSystem®,HelicosHeliscope®,CompleteGenomics®和PacificBiosciencesSMRT®。
SRA - SRA submission accession
SRP - SRA study accession
SRX - SRA experiments accession
SRR - SRA run accession
SRS - SRA sample accession
SRZ - SRA analysis accession
下机数据分析常规流程

安装aspera
####aspera支持NCBI断点续传,同样可以提高下载速度?
wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
cd /home/xjqi/.aspera/connect/bin
./ascp --help
数据下载
可以下载sra文件或fastq文件
sra文件为fastq.z又经压缩后的内容
用prefetch命令下载文件会直接调用ascp(添加到环境变量后,这里我还没搞通透)
我们需要的信息中的变量其实是GSEXXXXXX,根据链接格式进行更改
EBI数据库下载fastq.gz 列表----
fastq.gz文件. https://www.ebi.ac.uk/ena/data/search?query=GSE111229



GEO下载sra文件列表----
sra文件. https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229



####PRJNA436229.txt为fastq.gz的列表,prefetch.txt为SRR的list,是我们需要下载内容的名称列表
cat PRJNA436229.txt |grep 'gz'|cut -f 10|head -n 2|while read line;do wget $line;done
cat prefetch.txt |while read id;do prefetch $id -O ~/;done
####可以看到下载下来的文件有很多NC、KC、DQ开头的,看了一下是二进制文件,但具体什么情况,尚不了解。

SRR转为fastq数据
####Single-end 43 bp long reads were aligned at ESCG to mm10 mouse genome.这是数据搜索时看到的测序策略描述。
####single end和mate pair(pair end)数据转换时参数是不同的?
fastq-dump --gzip -O ./ ./SRR1039508.sra