GWAS笔记3-major/minor/REF/ALT/risk
这些名词很容易混淆而引起不必要的错误或误解,早期的遗传统计学软件,例如plink并没有很重视allele概念上的明确区分,但近年新出的软件或旧软件的新版本为保证统一性已经开始注意此问题。
第一组概念 频率上的major 与 minor allele
major allele 与 minor allele 通常针对某一大小确定的特定群体而言,频率最高的allele为该群体的major allele, 频率次高的为 minor allele,对于最常见的bi-allelic SNP来说,两个allele频率一高一低,就是这个群体中这个snp的major和minor allele,对于tri- 或者quad-allelic SNP (位点有三种或四种碱基的SNP)而言,minor allele则是频率第二高的那个allele
注意点:
区分major与minor的依据是 某一大小确定特定群体的 allele 频率
第二组概念 参考基因组的 reference (ref) 与 alternative (alt) allele
reference allele 在这里是指某一参考基因组上该位点的allele,该位点上其他的allele则称为alternative allele。注意,这里reference 与 alternative allele与频率无关,唯一的决定因素是所选的参考基因组。参考基因组上的allele多为major allele,但这只是巧合,不能以此为依据将major和 reference allele划上等号,也有部分reference allele在该群体中为minor allele。
PLINK2中则明确区分了reference 与 alternative allele的概念,例如上述的两个SNP,根据参考基因组对齐后,SNP1在参考基因组中的ref为T,那么alt就为C,这里计算的alt的频率为0.8742,按概念来说在该群体中,SNP1的T为ref allele,但却又是minor allele , 而C为alt,却又是major。 对于SNP2来说ref 则为 major,alt 为minor。
第三组 关联检验的 reference (non-risk 或者 non-effect)与 risk/effect allele
在这里的概念再次改变,同样的reference allele,在与 risk/effect allele并列时,则指的是GWAS关联检测中的reference allele (non-risk 或者 non-effect),也就是效应量beta(或odds ratio)估计时的参考,概念上与上述ref与alt的组合无关,但为了保持统一性,近年来研究中关联检验的reference 也会与 reference genome保持一致,以避免混淆等。(注意:早期多以minor allele为关联检验的ref allele,这也是容易产生混淆的点)
risk allele 则很好理解,就是对疾病发生有贡献的那个allele,在复杂疾病的研究中,一般情况下risk allele经常为minor allele,但也会有例外。effect allele的概念也类似,就是我们想要研究其对疾病或表型效应的allele,所以通常是对表型或疾病有贡献的allele,关联检验结果中effect一栏指的就是effect allele的效应。