高通量测序数据处理学习记录(零):NGS分析如何选择合适的参考基
前言
现有比对工具在做mapping之前,都需要下载对应物种的参考基因组做index,而如何选择合适的参考基因组是一件非常重要的事情。
现有的参考基因组存储网站三个:
ENSEMBL
UCSC
NCBI
UCSC 的命名是hg/mm系列,之前最常用的就是hg19参考基因组了。
ENSEMBL的命名规则则是采用GRCh/m的方式,GRCh37对应hg19,hg38对应GRCh38。
现阶段的话,我个人比较推崇从ENSEMBL上下载参考基因组和注释文件,以homo sapiens为例,https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看现有的基因版本和一些配套的信息。
FTP地址为:ftp://ftp.ensembl.org/pub/release-92/,直接可以在目录下download fasta文件和gtf文件,选择对应的种属即可。
fasta文件
ENSEMBL会存储在多种形式fasta文件:
example
首先根据组装的不同分为:
- .toplevel - Includes haplotype information (not sure how aligners deal with this)
- .primary_assembly - Single reference base per position
其实根据对序列的处理不同分为:
- dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
- dna_rm - Repeats masked (converts repeats to to N's)
- dna - No masking
GTF文件
ftp://ftp.ensembl.org/pub/release-92/gtf/ 这个网址包含了常见物种的GTF文件,以homo sapiens为例,
命名规则为:
The files are consistently named following this pattern: <species>.<assembly>.<version>.gtf.gz
# 需要注意的是,.abinitio后缀的GTF文件包括了Genscan和其他工具预测得到的注释信息,会全面一些。
For the predicted gene set, an additional abinitio flag is added to the name file.
但是我自己选择的话,我倾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz,因为在比对的时候fasta文件里面是带有scaffold的信息的。
这边我就不带大家熟悉GTF的格式了。
需要注意,GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一样的,GENCODE的chr1在ENSEMBL上就是1。其余的地方是一样的(针对human & mouse而言)。
问题
在比对的时候,我该选用哪一个类型的fasta文件呢?
当然根据分析目的有不同选择,这个时候你需要问自己几个问题。
Repeat Masking
在NGS处理过程中,事实上我们并不需要使用一个标记重复区域的基因组。标记重复的基因组会用N代替重复区域,而这就给后续的比对带来很大的问题,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的参考基因组。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)虽然也标记出了参考基因组,但是以小写的形式存在的,故对比对没有影响。
这个问题问完了,dna_rm - Repeats masked出局,余下两者进入下一个问题。
Primary or Toplevel?
简单的回答就是说请选择的primary版本,因为toplevel版本会包含haplotype信息,多余的信息会增加比对工具的工作,所以这里选择primary就可以完成你的工作。
多出来的chr_unkonw.....的信息是啥?
这是在构建基因组时已知存在于基因组内但是不知道位于哪条染色体上,随着注释工作的进展这些未知基因会越来越少。
结语
一些需要注意的小tips:
在下载完成后,别忘了去check一下md5
下载同一版本的fasta和gtf文件
保险考虑,不要使用一些比对工具建立好的Index,自己index一下也没多久。