GWAS学习之路-名词辨析
allele等位基因,allele frequency等位基因频率,minor allele frequency (MAF)次等位基因频率
allele等位基因的概念
高中学生物的时候关于遗传学的部分,记得当时的教材上为了简化处理一般将基因型定义为AA, Aa, aa。其实这种抽象的理解对应付高考是很有用的,但是实际应用中如果还这样理解那么便会产生一些疑问。之所以会产生这样的抽象,原因是早期并不知道双螺旋DNA是遗传物质,就更不提什么中心法则和DNA测序了。然而当时非常有慧根的孟德尔先生他通过豌豆杂交实验发现了著名的孟德尔遗传定律。所以当早期人们对于遗传学的分子机制还没有那么深刻的认识的时候,就简单的将基因型与表型结合起来理解,所以前面提到的 AA,Aa(显性),aa(隐形) 是针对表型来讲的。再到后来的沃森克里克、桑格尔等大牛对生物学实验技术的跨时代性贡献,知道了AA,Aa(显性),aa(隐形) 的区别是因为同源染色体上的等位基因(也就是A,a)的不同组合。好了,前面提到的部分内容是读高中时候我对等位基因的理解,但是当时也一直简单的认为是细胞核内有 等位基因A,a这两个东西,也没有深入想这两个等位基因A,a的区别到底是什么。
An allele is a variant form of a given gene. 学习21世纪专业后,慢慢的对这些概念有了稍微深入的理解。这两个等位基因(A,a)到底是啥,区别在哪里?其实我理解的基因应该是染色体上一段能转录成RNA并翻译成蛋白质的DNA序列,并且这段DNA序列还有不同的转录起始位点,不同的转录本(isoform)。
所谓等位基因,应该是指的一对同源染色体上同样坐标(coordinate)的一段DNA片段(基因座), 而造成等位基因差异(A和a)以及表型差异(豌豆颜色,圆粒皱粒)的原因,从DNA层面上讲,其实是因为同源染色体的上的这段DNA序列的差异造成的。当然有的等位基因的差异仅仅是由一个snp造成(关键位点影响蛋白质功能等原因),有的等位基因差异是由同一个基因座上的多个snp造成。
举个例子说明: 在人类ABO血型抗原的等位基因中,传统的遗传学家认为有三个等位基因 IA,IB,i, 因此决定六种基因型(IAIA、IAi、IBIB、IBi、IAIB、ii),四种血型(A型血(IAIA、IAi)、B型血(IBIB、IBi)、AB型血(IAIB)、O型血(ii)。 事实上这些基因型的差异是因为在这个基因座上的许多snp共同作用导致蛋白质性状的改变,在这个基因座已经发现有不少于70个 alleles。
等位基因频率和次等位基因频率
Global minor allele frequency (MAF): dbSNP is reporting the minor allele frequency for each rs included in a default global population. Since this is being provided to distinguish common polymorphism from rare variants, the MAF is actually the second most frequent allele value. In other words, if there are 3 alleles, with frequencies of 0.50, 0.49, and 0.01, the MAF will be reported as 0.49. The current default global population is 1000Genome phase 3 genotype data from 2500 worldwide individuals, released in the May 2013 dataset.
For example, refSNP page for rs222 reports: "MAF/MinorAlleleCount:G=0.249/542". This means that for rs222, minor allele is 'G' and has a frequency of 24.9% in the 1000Genome phase 1 population and that 'G' is observed 542 times in the sample population of 1088 people (or 2176 chromosomes).
以上是NCBI给出的(https://www.ncbi.nlm.nih.gov/projects/SNP/docs/rs_attributes.html#gmaf)
首先需要了解一下 allele frequency(等位基因频率)的概念。用一个例子说明:假设在100个人里面,某条染色体上某个位点有一个SNP,这个SNP位点有三个allele: A, C, G。 通过全基因组测序的方法我们发现这100个人里面这个位点的碱基A出现100次,C出现80次,G出现20次(人是二倍体,因此这个SNP位点有200个)。所以我们可以计算这三个allele的频率: A = 100/200, C = 80/200, G = 20/200. 那么根据定义,出现第二多的就是minor allele frequency。 也就是allele C,MAF为0.4。