SRA数据库及下载二代测序原始数据转换为fastq文件
以下内容来之知乎 :https://zhuanlan.zhihu.com/p/62914954,感谢作者分享,我只是Mark下来给自己看,再次申明,不是原创:
自己补充概括三点:1. 下载Accession List ; 2.下载RunInfo Table,里面记录了样品信息、建库信息、测序信息、数据信息 ; 3. 将SRA数据变成 fastq数据,fastq-dump 命令,注意是单端还是双端测序。
fastq-dump -I --split-files SRR390728 Produces two fastq files (--split-files) containing ".1" and ".2" read suffices (-I) for paired-end data.
--split-spot Split spots into individual reads.
一.SRA数据库:
NCBI网站储存二代测序原始数据的数据库.
(一)SRA数据类型:
1.Studies:研究课题
2.Experiments:实验设计
3.Samples:样品信息
4.Runs:测序结果
(二)对应序列前缀:
1.SRP/ERP:对应studies
2.SRX:对应Experiments
3.SRS:对应Samples
4.SRR:对应Runs
二.Protocol for analysis:
1.登入NCBI-SRA数据库并下载SRAToolkit使用:
下载地址:
Main : Sequence Read Archive : NCBI/NLM/NIHtrace.ncbi.nlm.nih.gov
选择相应操作系统版本下载,本文以 MS Windows 64 bit architecture为例,解压至相关目录(自己指定位置吧(˶‾᷄ ⁻̫ ‾᷅˵))
2.选择SRA数据库,输入关键词或序列号检索,并点击进入结果链接
3.点击详细信息界面中的研究课题编码SRP
4.点击右方“Related SRA data”中的测序结果Runs的数字
5.在下方列表中选择需要的原始数据序列号下载,点击“Download”栏Accession List
6.下载二代测序数据:
(1)使用“运行”输入CMD打开命令行界面,输入以下内容并运行:
prefetch.exe的路径\prefetch.exe —option-file 下载的序列号文件的路径\ 序列文件
例:D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\prefetch.exe —option-file C:\Users\asus\Desktop\SRA_Acc_List.txt
(2)下载完成,二次测序原始数据位于用户家目录ncbi文件夹中
例:C:\Users\asus\ncbi\public\sra\SRR4289741.sra
7.sra格式转化为fastq格式:
(1)使用“运行”输入CMD打开命令行界面,输入以下内容并运行:
fastq-dump.exe的路径\fastq-dump.exe —split-3 sra文件的路径\ sra文件
例:D:\WHU_2102\Tools\sartoolkit.2.9.6-win64\bin\fastq-dump.exe —split-3 C:\Users\asus\ncbi\public\sra\SRR4289741.sra
(2)转换完成,fastq格式数据存在于原数据相同目录下
“—split-3”中“-3”表示双端测序,输出转换结果为两个fastq文件(如果样品为单端测序只返回一个fastq文件)
例:C:\Users\asus\ncbi\public\sra\
编者的话:萌新第一次用知乎,不足之处还请海涵,之所以要做这些是因为自己在学生信,发现网上很多都零散不全,希望对每一次的小操作都系统涵盖一下,以后还会不断更新,大家一起学习进步吧!(˶‾᷄ ⁻̫ ‾᷅˵)