生信星球转录组培训第一期Day3--郝志刚

2019-06-07 本文已影响6人马连洼小法师

GEO数据库：基因表达仓库（Gene Expression Omnibus），来源于芯片数据、SAGE、高通量测序mRNA、IncRNA等。
数据存放：四种类型GSE、GSM、GPL、GDS

GSE：将整个项目一系列样本和平台联系起来，例如：GSE17708（GSE+数字），GSE=GPL+GSM
GSM：对应一个样本的数据，只对应一个平台，表示每个样本操作环境。
GPL : 平台信息，包含微列阵或测序平台简要描述。
GDS：同一个平台数据集

通过GSE号获得SRA（short Read Archive），里面包括原始数据、实验项目、实验设计、测序平台、样本数据等信息，结构如下：

第一级：课题study：SRP表示，一个study包括多个experiment。
第二级：样本Samples：SRS表示
第三级：实验experiment：用SRX表示数据如何产生的，包括特定样本的文库测序信息。
第四级：数据RUN：SRR表示利用测序手段得到的原始数据。

（1）SRA里面存储整个项目的各种信息，可以看到用什么测序仪，多少RUN，数据量多少，进一步了解需要导出（按箭头操作）。

image.png

（2）获取编号

image.png

（3）服务器中存储编号
cat >srr.ids 选中复制编号，右键，enter回车，ctrl+c，粘贴完毕。

（4）配置下载软件
需要安装sra-tools ，aspera。

# 创建好后激活
conda activate RNA-seq
# 测试一下prefetch是否可以使用
prefetch #看出不出帮助文档即可，出来就是成功```

tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹，有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量，并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help

(5)数据下载

cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done

image.png

附：踩坑记录
坑：下载SRA数据时prefetch默认下载通过https，速度感人，一个多小时一个文件都没下载完。
原因及解决：prefetch默认通过https，类似于网页下载，要通过aspera连用下载。它是IBM旗下的商业高速文件传输软件，与NCBI和EBI有协作合同，相当于加速器。安装之后通过fasp下载。

image.png

生信星球转录组培训第一期Day3--郝志刚

猜你喜欢

热点阅读