生信星球转录组培训第一期Day3--善良土豆
端午安康
今天转录学习第三天,开始进入实战的第一步----数据查找和下载
今天要被自己蠢哭了,自己挖坑自己跳,还给自己埋了2个多小时,真的不夸张,要被自己气死了!
走起!!!
数据从哪里来?
如果我们想利用已发表的数据进行分析和数据挖掘,首先第一步要找到和你做的方向相关的文献,然后在文献中寻找其公开数据的Accession ID;
实战文献为:RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells。
一般Accession ID会写在每篇文章的材料方法中,请仔细查找,关于GEO数据库,其数据存放分为四种类型:GSE,GSM,GPL,GDS
-GSE:将整个项目的一系列样本和平台关联起来,比如GSE17708(都是GSE+数字)
GSE=GPL+GSM
-GSM:对应一个样本的数据,只能对应一个平台,表示每个样本操作环境
-GPL:平台信息,包含微阵列或测序平台简要描述(GPL+数字)
-GDS:同一个平台的数据集
关于数据库详细的内容请参考小泽优秀作品:生物数据库ID,让我深入了解你
GEO数据库官网:官网 GEO官网
输入GSExxxxx后如下图,同时该页面的网址也可以作为快速查找GSExxxxx的快捷页面,只需要修改后面的数字为你目标数字即可
快速查找:(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17708)
此页面有实验材料,方法等一些列关于实验组分的内容,可以帮你快速了解这篇文章数据结构。接下来我们将页面下拉,如下图
寻找SRA,得到SRPxxxxx
对于这篇文章的GSE ID如下图,基于以上步骤通过这篇GSE_ID最终可以得到SRPxxxxx
GSE停!
说明:不是所有的文章都是以asscession GSExxxxx在文章中呈现,
PRJNA
如这篇: RNA-Seq Transcriptome Profiling of Upland Cotton (Gossypium hirsutum L.) Root Tissue under Water-Deficit Stress
搞什么事情和之前说的不一样,那么我们就将这个号输入到NCBI中最终也将得到SRPxxxxx,与其说我们在某个文章中找GSExxxxx或是什么其他的ID,倒不如我们找一句描述内容:Read count data was deposited或The RNA-seq data is available at the这一类表示数据已公开的ID就ok啦。另外!更说白了,我们最终就是要找SRPxxxxx。
-SRA:Short Read Archive
它的内容主要包括了原始数据、实验项目、实验设计、测序平台、样本数据等信息,同时具有一定的结构:
第一级:课题Studies:用SRP表示实验项目,一般一个study会包括多个experiments;
第二级:样本Samples: 用SRS表示生物原材料的信息,每一个样本都有自己的属性;
第三级:实验Experiments: 用SRX表示数据是怎么产生的,包括特定样本的测序文库信息;
第四级:数据Run:用SRR表示利用某种测序手段得到的原始数据。
找到SRPxxxxx后我们点击进去,这里存储了整个研究项目的各种信息,可以看到用的什么测序仪,多少run,数据量多少。为了更进一步去了解每个特定的SRR信息,我们要把它们导出(按箭头提示操作):啥是run,我理解的就是Samples数,这篇文章ck组+处理组+生物学重复共有16个样本
1-4操作随后如下图:
第一篇文章呈现结果该图里面呈现了PRJNA_ID,Illumina HiSeq 2000,CDS,PAIRED,Tissue,SRA,数据大小等信息,并且展现了16 Runs,那这16 Runs都是什么呢,请回上面快速查找页面查看。
第二篇文献呈现结果除了第一篇文章呈现的结果外,还包含了上面所说的SRP,SRA,SRA,SRX信息。
好啦,要开始下载数据啦,选择你要分析的组下载喽!!!
Accession List点击Accession List后下载成为txt文件,但这里建议:
Windows推荐notepad++:https://notepad-plus-plus.org/
mac推荐sublime:https://www.sublimetext.com/
notepad++
太好啦!数据下好了,走咱去linux下玩去
-创建项目目录
前面已经建立好rnaseq项目目录
mkdir -p $HOME/rnaseq/{raw,clean,ref,qc,align,count,script}
-将下载SRRxxxx复制粘贴到linux中,使用cat命令
cat >ssr.ids
SRR1039521
SRR1039520
SRR1039517
SRR1039516
SRR1039513
SRR1039512
SRR1039509
SRR1039508
###新一行 Ctrl+c
###建立好后看看一样不
cat ssr.ids
-开始下载数据
使用conda,使用方法请回看学习小组Day3笔记--善良土豆
conda config --remove-key channels # 可以选择性忽略
conda config --add channels r
conda config --add channels conda-forge
conda config --add channels bioconda
然后创建一个专属rnaseq的分析环境,然后安装工具包sra-tools,使用这个工具包中的prefetch软件下载数据,最后激活环境,查看prefetch软件是否安装成功
conda create -n rnaseq python=2 sra-tools -y
# 创建好后激活
conda activate rnaseq ####如果激活失败,请用source activate rnaseq
# 测试一下prefetch是否可以使用
prefetch --help#出帮助文档即可,出来就是成功
prefetch直接加上上面下好的SRR号就可以直接下载数据喽!
但是这种方法下载速度咋那么慢呢,那咱就想办法让它提速!
请继续学习小泽又一优秀作品来吧,加速你的下载
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹,有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help
ascp安装成功后,prefetch就会默认将下载方式从https转移到fasp,说明开启加速模式
via fasp我们可以这样一步一步的下完每一个数据,但是这样好麻烦,那么我们继续提升便捷方法,循环
cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
while循环,标准写法就是while read ...;do ...;done
如果我们担心中间出现一次服务器掉线,下载就会中断。为了避免这种情况导致的数据不完整,我们可以将任务放到后台,方法如下:
一是:使用nohup 加上面的那一行命令,然后结尾加一个&
nohup cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done &
二是:直接运行那一行命令,然后先手动ctrl + z 将任务挂起,然后输入bg 1 ,即运行刚刚挂起的程序
cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
Ctrl + z
bg 1
哦,对了,差点忘记,小泽推荐文献下载网站:
https://sci-hub.tw/10.1371/journal.pone.0099625,其实这个网站之前有关注过,我只是在有的资源下不下来的时候才会用它解决,很不错!!
今天先到这吧,我还有数据没下下来呢,明早要早起去下数据,今天的坑就在于觉得自己行了,echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc加粗记住你了,搞错了,当发现问题时,先自己研究一下,实在研究不明白,全部重头来,就会找到问题!晚安,导图也明天弄