STEP3:了解参考基因组及注释文件

2018-01-31 本文已影响364人六六_ryx

下载原始测序数据：

在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址，需要先从BioProject找到SRA号，可以得到RNA-Seq的SRA的accession_list，共64组数据（SRA数据下载方法参考：https://www.ncbi.nlm.nih.gov/books/NBK158899/）。

得到SRA号就可以从NCBI的SRA或者EBI的ENA批量下载原始数据了，NCBI下载的原始数据是sra格式，需要用SRA Toolkit软件包转化为fastq数据格式，EBI下载的数据直接是fastq格式。

这里要注意SRR号并不是连续的，好像有人已经踩过这个坑了，我还是掉进去了，下了一个晚上的数据白瞎了。重新下载，这次只选择下载CC,OC两个脑区域的数据，刚好这两组数据的测序平台也一致。

#NCBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR404/SRR4042$i/SRR4042$i.sra;done
for ((i=393;i<=400;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015$i/SRR4015$i.sra;done

##SRR4015393和SRR4015394测序质量不好，最好不要下载这两组数据练习。

#EBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_1.fastq.gz;done
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_2.fastq.gz;done

另外若觉得wget下载速度慢，可以选择其他下载方法(SRA、SAM以及Fastq文件高速下载方法)：

首选Aspera Connect软件，这是IBM旗下的商业高速文件传输软件，与NCBI和EBI有协作合同，我们可以免费使用它下载高通量测序文件，体验飞一般的感觉，速度可飚至300-500M/s。下载完成后，本地用fastq-dump提取fastq文件，用sam-dump提取SAM文件。

其次，如果上述方法不奏效，优先使用sratoolkit中的prefetch命令。

最后，使用sratoolkit中的fastq-dump和sam-dump命令下载，如果fastq-dump不稳定，推荐大家尝试Biostar Handbook中的wonderdump脚本。

SRA数据库介绍
SRA（Sequence ReadArchive）数据库是存储二代测序的原始数据。

根据SRA数据产生的特点，将SRA数据分为四类：
Studies-- 研究课题
Experiments-- 实验设计
Runs-- 测序结果集
Samples-- 样品信息
SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs.
Studies是就实验目标而言的，一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。
SRA数据库用不同的前缀加以区分：
ERP或SRP表示Studies；
SRS 表示 Samples；
SRX 表示 Experiments；
SRR 表示 Runs；

下载基因组数据：

基因组数据：ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/
Ensemble基因组数据的形式包含以下2种：
（1）masked/unmasked
dna_sm- Repeats soft-masked (converts repeat nucleotidesto lowercase)
dna_rm- Repeats masked (converts repeats to to N's)
dna- No masking
(2) toplevel / primary assembly
toplevel- Includes haplotype information (notsure how aligners deal with this)
primary_assembly– contains all toplevel sequenceregions excluding haplotypes and patches. This is best used for performingsequence similarity searches where patch and haplotype sequences would confuseanalysis.

根据README中的介绍，primary_assembly 和 toplevel相比不包含haplotype, 更适合用于比对，对于mask/un mask 通常选择softmask或者unmasked, 一般不用rm的。这个有一个讨论，几个人的回答并不一致，我还是模模糊糊，并不很明白。

macaca的基因组版本没有给出primary_assembly, 所以我下载了sm.toplevel和toplevel, 有时间去比较下会对下游分析有什么影响。

wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna_sm.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz

下载注释数据：

注释数据：https://asia.ensembl.org/info/data/ftp/index.html

wget ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gff3.gz

参考资料：

SRA数据下载方法参考：https://www.ncbi.nlm.nih.gov/books/NBK158899/
SRA、SAM以及Fastq文件高速下载方法: http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/
SRA数据库介绍：https://www.shengxin.ren/article/16

STEP3:了解参考基因组及注释文件

下载原始测序数据：

下载基因组数据：

下载注释数据：

参考资料：

猜你喜欢

热点阅读