Ensembl 简介及其参考基因组
2022-01-04 本文已影响0人
生信师姐
网址:https://asia.ensembl.org/index.html
- Ensembl是一个 脊椎动物 基因组的基因组浏览器,支持比较基因组学、进化、序列变异和转录调控的研究。Ensembl注解基因,计算多种校准,预测调节功能和收集疾病数据。
Ensembl 的特点:
1、物种种类齐全。
2、提供物种基因组序列。
3、有比对工具:BLAST, BLAT, BioMart和变异效应预测器(VEP)。
Ensembl提供搜索功能,种类包括Gene, Transcript, Variant, Phenotype, Structural variation, Somatic mutation, Protein families, Gene tree, GenomicAlignment, Translation, Protein domains, Clones and regions, Marker.
image提供物种数据的大类:
Protein-coding and non-coding genes, splice variants, cDNA and protein sequences, non-coding RNAs.
其中
- FASTA files for genes, cDNAs, ncRNA,
- proteins GTF or GFF3 files for genes, cDNAs, ncRNA, proteins
image其中cDNA是互补DNA,是由mRNA反转录来的DNA,不包括ncRNA.双链DNA缩写是dsDNA,ncRNA表示非编码RNA.
CDS是编码序列(Coding sequence)的缩写。DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一 一对应的DNA序列
- primary_assembly 结尾的文件,该文件内部有完整的基因组信息(包括每条染色体的序列信息),一般做比对选它。
- alt 结尾的参考基因组文件,这个文件的alt代表:Alternate loci,不同的单倍体型,里面有不同的HLA序列,基因在一条染色体上的组合称单元型(haplotype ,又称单倍型)
- chromosome+数字 结尾的代表每个染色体的序列信息
- 以toplevel结尾的文件,其内部包括了很多该物种的亚型,或者说包括了大量的变异信息,其余很多部分都是冗余的,不建议做比对时使用,否则建索引就很慢。
- dna_rm: 该类序列为dna repeat masker序列,即屏蔽重复序列,该序列中,所有重复序列均会变成N;在做比对时不建议使用
- dna_sm: 该类序列为dna soft masker序列,即软屏蔽重复序列,该类序列中,所有重复序列均会变成小写;有些软件在比对时可以进行大小写转换,有些则不会