生信分析流程生物信息学与算法简友广场

RNA-Seq数据分析前准备——参考基因组准备

2022-02-07  本文已影响0人  生信助手

进行转录组分析前,需准备好参考基因组文件。医学研究中应用最多的就是人类、大鼠、小鼠。本文以这三种为主进行介绍。

参考基因组的下载可以进入ensembl数据库进行

Fig.1

点击画红框位置可以下载人类和小鼠的参考基因组。

首先下载人类基因组及注释文件

Fig.2 Fig.3

有很多基因组文件,我们选择primary。至于为什么选择primary,简单解释一下。

ENSEMBL会存储在多种形式fasta文件:

首先根据组装的不同分为:

其实根据对序列的处理不同分为:

Repeat Masking

在NGS处理过程中,事实上我们并不需要使用一个标记重复区域的基因组。标记重复的基因组会用N代替重复区域,而这就给后续的比对带来很大的问题,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的参考基因组。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组,但是以小写的形式存在的,故对比对没有影响。 这个问题问完了,dna_rm - Repeats masked出局,余下两者进入下一个问题。

Primary or Toplevel?

简单的回答就是说请选择的primary版本,因为toplevel版本会包含haplotype信息,多余的信息会增加比对工具的工作,所以这里选择primary就可以完成你的工作。

使用一下命令下载即可

##人
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz & ##下载基因注释
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz & ##下载参考基因组
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz & ##下载参考转录组

随后下载小鼠以及大鼠

Fig.4
##小鼠
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/mus_musculus/dna/Mus_musculus.GRCm39.dna.primary_assembly.fa.gz & ##下载基因组文件
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/mus_musculus/cdna/Mus_musculus.GRCm39.cdna.all.fa.gz & ##下载参考转录组
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/mus_musculus/Mus_musculus.GRCm39.104.gtf.gz & ##下载基因组注释
Fig.5
##大鼠 
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/rattus_norvegicus/dna/Rattus_norvegicus.Rnor_6.0.dna_sm.toplevel.fa.gz & ##下载参考基因组文件
nohup wget http://ftp.ensembl.org/pub/release-104/fasta/rattus_norvegicus/cdna/Rattus_norvegicus.Rnor_6.0.cdna.all.fa.gz & ##下载参考转录组文件
nohup wget http://ftp.ensembl.org/pub/release-104/gtf/rattus_norvegicus/Rattus_norvegicus.Rnor_6.0.104.gtf.gz & ##下载基因组注释文件
上一篇 下一篇

猜你喜欢

热点阅读