测序数据的获取与格式转换

2018-12-21  本文已影响0人  15Orion上旅行

目录

测序数据的获取:SRA数据库,数据下载软件Aspera

格式转换:SRAToolkit

一、测序数据的获取

1.Aspera安装

Aspera利用fasp™ 传输专利技术,它是一项突破性传输协议,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快数百倍,具有端对端安全性、100% 可靠性以及卓越的带宽控制能力。

Ubuntu下安装Aspera connect


wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz

tar zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz

sh aspera-connect-3.6.2.117442-linux-64.sh

~/.aspera/connect/bin/ascp -h

输入后出现:

image

2.SRA数据库使用

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。

在浏览器访问NCBI,FTP服务器:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/

image

逐级访问目标文件

image

3.利用Aspera下载SRA文件:


~/.aspera/connect/bin/ascp -T -i /home/用户名/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/目标路径(如上图为SSR693/SSR6937757.sra) ./

参数说明:

-T 不进行加密。若不添加此参数,可能会下载不了

-i string 输入私钥,安装aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,使用linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。

-l string 设置最大传输速度,比如设置为200M 则表示最大传输速度为200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

-k 1 支持断点续传

二、数据格式转换——SRA toolkit

1.SRA toolkit安装:


wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz

tar zvxf sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/

echo 'export PATH=~/Biosofts/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

2.fastq-dump解压缩

SRA toolkit中的fastq-dump能对SRA文件进行解压缩:


fastq-dump --gzip --split-files SRR6937757.sra

image
上一篇下一篇

猜你喜欢

热点阅读