推断缺失的SNP基因型
2022-03-30 本文已影响0人
小潤澤
这是一篇发表在NG上的文章,讲述了当某一个个体缺乏SNP z的时候该如何推断出它的真实SNP基因型,《Genome-wide association studies of 14 agronomic traits in rice landraces》
比方说我们有100个个体(一倍体),那么有97个个体在SNP z这个位置上是call 得出来的,而在3个个体中是缺失的,那么我们的目的是infer出这三个个体中缺失的SNP
具体做法:
首先,确认我们要推断的SNP z,然后上下拓展相同的长度(该例子为上下拓展3bp),并定义为窗口 w 。对于个体 i 和个体 j 计算该 w 内的相似性分数,当两个major allele相同时,分数(sij)为 1;当两个major allele有一个或两个都缺失时,分数(sij)为 0;当两个major allele不同时,分数(sij)为 p
那么这个窗口 w(针对SNP z) 的相似性为:
即窗口 w 内的分数总和
那么有N个个体对于窗口 w (针对SNP z)计算相似性分数,我们就可以得到一个矩阵:
例如S31代表个体 3 与个体 2 在窗口 w (针对SNP z)中的相似性分数
如果要推断个体 i SNP z的缺失值,我们需要取个体 i 与其他个体在窗口 w(针对SNP z)的相似性分数,并从大到小排序,取分数最大的前k-th定义为nearest neighbor
那么个体 i 缺失的SNP z基因型定义为窗口 w相似性分数最高的那个个体(比方Si25分数最高)对应位置(SNP z)的major allele(个体25 SNP z的major allele)