基因变异及检测
变异的分类(目前主要分为三个大类)
- 单碱基变异,即单核苷酸多态性(SNP),最常见也最简单的一种基因组变异形式;SNP是针对群体而言的,其在人群中发生的概率一半大于1%。在整个地球上所有的人群中,小于1%的这种变异,大家把它通称为突变,叫mutation;超过了1%的这种变异,就叫做polymorphism。有时候也用5%作为cutoff 。variation或者variant一般是mutation和polymorphism的统称。
- 很短的Insertion 和 Deletion,也常被我们合并起来称为Indel。主要指在基因组某个位置上发生较短长度的线性片段插入或者删除的现象。强调线性的原因是,这里的插入和删除是有前后顺序的与下述的结构性变异不同。Indel长度通常在50bp以下,更多时候甚至是不超过10bp,这个长度范围内的序列变化可以通过Smith-Waterman 的局部比对算法来准确获得,并且也能够在目前短读长的测序数据中较好地检测出来;
-
基因组结构性变异(Structure Variantions,简称SVs),通常就是指基因组上大长度的序列变化和位置关系变化。类型很多,包括长度在50bp以上的长片段序列插入或者删除(Big Indel)、串联重复(Tandem repeate)、染色体倒位(Inversion)、染色体内部或染色体之间的序列易位(Translocation)、拷贝数变异(CNV)以及形式更为复杂的嵌合性变异。
图1. 结构性变异的不同种类
研究人员对基因组的结构性变异发生兴趣,主要还是由于在研究中发现:
- SVs对基因组的影响比起SNP更大,一旦发生往往会给生命体带来重大影响,比如导致出生缺陷、癌症等;
- 有研究发现基因组上的SVs比起SNP而言,更能代表人类群体的多样性特征;
- 稀有且相同的一些结构性变异往往和疾病(包括癌症)的发生相互关联甚至还是其直接的致病诱因。比如,《我不是药神》电影中提到的慢粒白血病,它就和基因组的结构性变异直接相关。它是由于细胞中的9号染色体长臂与22号染色体长臂相互易位,导致ABL基因和BCR基因融合,形成了一个会导致ABL异常表达的小型染色体(称为费城染色体)发生的。
SNP、variant和mutation有什么区别?
- SNP是中性的,mutation显然和疾病相关;
- 其次就是频率,频率很高的是SNP,mutation则很低。
- variant和variation是同义词,因此和SNP是等价的。
为什么genetic这么执着于MAF?
因为从进化角度,risk allele更有可能是minor allele,自然选择。不绝对,但可以说是富集。看文章:Are minor alleles more likely to be risk alleles?
common variants together account for a small proportion of heritability estimated from family studies,common variants通常都在编码区,占总variants的很小一部分,同时effect size也比较低。
SNP、SNV(单核苷酸位点变异)
SNPs 与 SNVs,二者都是单核苷酸的改变,如果细究起来,还是有些区别的。SNPs一般是针对“群体”而言,且在群体中占据一定比例(well characterized),而SNVs一般是针对“个体”而言,发生频率非常低,不常见 (not well characterized)。
- 单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs): 个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。单个核苷酸碱基的改变,包括置换、颠换、缺失和插入,导致的核酸序列的多态性,是人类最常见的遗传变异类型。由于具有遗传稳定性强、数量多、分布广等特点,SNP被广泛应用于群体遗传学以及疾病相关基因定位等研究中。
- 单核苷酸变异(Single Nucleotide Variants,SNVs): 是DNA序列中单一核苷酸的变异。有单位点核苷置换,单位点核苷缺失,单位点核苷插入三种常见模式。其中置换模式为基因组上某一单位点核苷变异成另一核苷,缺失模式为基因组上某一位点的核苷缺失,插入模式为基因组上某一单位点核苷重复表达。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV
什么是copy number variation (CNV):基因组拷贝数变异
基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。
基因组结构变异(Structural Variation,SV)
这种类型比较多,根据结构变异的不同类型可以进一步分为50bp以上的长片段序列的:
- 插入(Insertion)
- 缺失(Deletion)
- 反转(Inversion)
- 染色体内易位(Intra-chromosomal Translocation)
- 染色体间易位 (Inter-chromosomal Translocation)
- 拷贝数变异(Copy Number Variation)
- 以及一些形式更为复杂的变异。
一般SV的展示利用Circos 软件。
小的插入或缺失( insertion-deletion,InDel)
插入和缺失( insertion-deletion,InDel),指的是在基因组的某个位置上所发生的小片段序列的插入或者缺失,其长度通常在50bp以下。与SNP不同的是,它并不是单个碱基的变化,而是在基因组中发生不同大小的DNA片段的插入或者缺失。它在基因组中的分布频率也是仅次于SNP,且很多都发生在基因内部甚至是外显子区域、启动子区域等重要位置。这种变异往往能够引起基因功能产生重大变化,同时InDel也是非常重要的一种基因组结构变异。
germline突变和somatic突变的区别
目前在很多SNP检测用在肿瘤基因检测中,这里就涉及到两个非常非常重要的概念,germline和somatic。
在肿瘤分析的软件中会大量看到这两个概念。因为不同的软件需要区分是哪种突变,例如GATK,freeabys,bcftools等只能找germline突变,而Mutec,varscan,SomaticSniper,muse,strelka只能用来找somatics突变。
image.jpeg
germline somatic 参考文献:
- Exploring the Link between the Germline and Somatic Genome in Cancer
- interaction landscape of inherited polymorphisms with somatic events in cancer
- Interaction analysis between germline susceptibility loci and somatic alterations in lung cancer
- Interaction analysis between germline susceptibility loci and somatic alterations in lung cancer
- DSMNC: a database of somatic mutations in normal cells 数据库(http://dsmnc.big.ac.cn/)
- Integrating germline and somatic variation information using genomic data for the discovery of biomarkers in prostate cancer
- Germline Variants Impact Somatic Events during Tumorigenesis
- Integrating Germline and Somatic Mutation Information for the Discovery of Biomarkers in Triple-Negative Breast Cancer
体细胞突变
突变类型:
- 同义突变(same-sense mutation/synonymous)
- 沉默突变:silent mutation:也称DNA的突变虽引起mRNA中密码子改变为另一种密码,但由于密码子的兼并作用,并未使编码的氨基酸改变。(编码区)
- 框内缺失突变法(in-frame deletion),符合读框的缺失,在基因的翻译过程中,每三个核苷酸为一组,组成一个密码子,如果一个完整密码子被删除,而其他密码子可以正常翻译,这种突变就叫作框内缺失。
- 非同义突变:(Non-synonymous(missense):影响氨基酸的变异。
- 无义突变(nonsense mutation):DNA的突变引起mRNA中的密码子改变为一种终止密码子。
- 错义突变(missense mutation):是指DNA的突变引起mRNA中密码子改变,编码另一种氨基酸。如DNA中某GAA发生转换突变成AAA后,使原编码的谷氨酸改变为赖氨酸。
- 移码突变( frame shift mutation):是指DNA分子由于某位点碱基的缺失或插入,引起阅读框架变化,造成下游的一系列密码改变,使原来编码某种肽链的基因变成编码另一种完全不同的肽链序列。(针对于编码区)
- 小的插入/缺失:Short insertion/deletions(indels): 有可能发生在基因区间或者内含子区,多数时候对表型的影响不是很大,但不是绝对;也可能发生编码区,分为两种,一种导致frameshift;一种是不会导致frameshift。
Whole genome sequencing analysis for cancer genomics and precision medicine
image.png
wgs of DNA
eQTL
定义:表达数量性状基因座(expression Quantitative Trait Loci,eQTL)指与单个基因 mRNA 表达量相关的 DNA 突变。eQTL 可分为 cis-eQTL 和 trans-eQTL,前者就是某个基因的 eQTL 定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的 mRNA 水平变化;后者是指某个基因的 eQTL 定位到其他基因组区域,表明其他基因的差别控制该基因 mRNA 水平的差异。
cis-eQTL/trans-eQTL
变异检测
- 变异检测软件
将BAM文件输入到变异检测软件(VarScan、GATK、Mutect2等)中,会得到VCF格式的文件。bam文件是sam文件的二进制格式,sam 文件是Sequence Alignment Map的简写,产生于比对之后的数据输出,记录了比对的具体情况。文件中以tab键分割,包括上下两部分: - VCF文件的格式(VCF:Variant Call Format,表示基因组的SNP, INDEL和SV变异信息)
一般为十几行,第1列:染色体号;第2列:染色体位置;第3列:是一个ID,是找到的变异位置的ID,可选的;后面参考基因组的上的碱基、突变后的碱基、基因型、深度、碱基频率。 - 变异检测的目的
是为了从bam得到突变。因为bam是每一个位置上的碱基均有,但并不是每一个位点均是突变,VCF则是将突变的位点显现出来。bam文件可能会有10个G,但一般的VCF文件通常不会超过一个G,如果VCF文件超过1个G时,则证明测序存在错误,测的太差了。 - 蓝色箭头所代表的流程
变异检测所输出的每一个样本的VCF,将它们联合起来,所以叫联合基因型。假如说我们这个胃癌的队列有100个样本,就会出现100个VCF,组成一个VCF,merge成为gVCF.再通过联合基因型,这个结果可以和单独的100个样本的VCF在做一个变异质控和过滤。
四、变异注释
我们刚刚拿到的变异只有位置,有参考基因组的碱基、突变成的碱基。而我们找基因突变的目的不是为了找看基因突变,而是为了看这个基因在蛋白的表达上有什么影响使人体患病。就是说要将其转换为生物体上的数据。比如说这个基因表达了那种蛋白,由于该基因突变导致此蛋白失活,使得该蛋白没有功能了。