知道GSE号如何从GEO下载sra数据
2021-12-17 本文已影响0人
Z_bioinfo
本次教程采用文献RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells,使用数据为GSE52778。


1.数据下载
1.百度搜素geo数据库,进入界面,输入GSE52778,出现以下界面,可以看到有六个样本,点击下方的SRP250675,在出现的界面里选择圈出的选项,会自动下载一个excel文件,里面有这六个样本的下载链接。百度搜索那些链接,自行下载,下载后可以传到服务器



SRA Run Selector中搜索SRP033351.下载完后将SRR_Acc_List.txt上传到服务器,看到有16个样本数据,然后批量下载数据。看着数据挺大,挂后台应该得下一晚上。


cd scripts
#第一种,使用循环下载
cat > sra.sh
cat ../sra.data/SRR_Acc_List.txt | while read id;
do
prefetch $id
done
#第二种
cat SRR_Acc_List.txt | xargs prefetch -v
nohup sh ../scripts/sra.sh > ../logs/sra.log 2>&1 &
#第三种:也可以单个数据下载
nohup prefetch SRR1039509 > ../logs/SRR1039509.log 2>&1 &
nohup prefetch SRR1039511 > ../logs/SRR1039511.log 2>&1 &
nohup prefetch SRR1039515 > ../logs/SRR1039515.log 2>&1 &
nohup prefetch SRR1039516 > ../logs/SRR1039516.log 2>&1 &
nohup prefetch SRR1039517 > ../logs/SRR1039517.log 2>&1 &
nohup prefetch SRR1039518 > ../logs/SRR1039518.log 2>&1 &
nohup prefetch SRR1039519 > ../logs/SRR1039519.log 2>&1 &
nohup prefetch SRR1039520 > ../logs/SRR1039520.log 2>&1 &
nohup prefetch SRR1039521 > ../logs/SRR1039521.log 2>&1 &
nohup prefetch SRR1039522 > ../logs/SRR1039522.log 2>&1 &
nohup prefetch SRR1039523 > ../logs/SRR1039523.log 2>&1 &
#使用wget命令下载,速度很慢,下了一晚上,没有下完,不推荐。
cat > wget.sh
cat ../sra.data/SRR_Acc_List.txt | while read id;
do
wget https://sra-downloadb.st-va.ncbi.nlm.nih.gov/sos2/sra-pub-run-6/$id/$id.1
done
nohup sh ../scripts/wget.sh > ../logs/wget.log 2>&1 &
挂了一晚上,下载好了。剩下的就是将SRA格式转为fsatq格式,用于后续分析。
