bioinformatics

推断缺失的SNP基因型

2022-03-30  本文已影响0人  小潤澤

这是一篇发表在NG上的文章,讲述了当某一个个体缺乏SNP z的时候该如何推断出它的真实SNP基因型,《Genome-wide association studies of 14 agronomic traits in rice landraces》

比方说我们有100个个体(一倍体),那么有97个个体在SNP z这个位置上是call 得出来的,而在3个个体中是缺失的,那么我们的目的是infer出这三个个体中缺失的SNP

具体做法:
首先,确认我们要推断的SNP z,然后上下拓展相同的长度(该例子为上下拓展3bp),并定义为窗口 w 。对于个体 i 和个体 j 计算该 w 内的相似性分数,当两个major allele相同时,分数(sij为 1;当两个major allele有一个或两个都缺失时,分数(sij为 0;当两个major allele不同时,分数(sij为 p


那么这个窗口 w(针对SNP z) 的相似性为:

即窗口 w 内的分数总和

那么有N个个体对于窗口 w (针对SNP z)计算相似性分数,我们就可以得到一个矩阵:

针对窗口 w的相似性分数
例如S31代表个体 3 与个体 2 在窗口 w (针对SNP z)中的相似性分数

如果要推断个体 i SNP z的缺失值,我们需要取个体 i 与其他个体在窗口 w(针对SNP z)的相似性分数,并从大到小排序,取分数最大的前k-th定义为nearest neighbor

针对窗口 w的相似性分数
那么个体 i 缺失的SNP z基因型定义为窗口 w相似性分数最高的那个个体(比方Si25分数最高)对应位置(SNP z)的major allele(个体25 SNP z的major allele)
上一篇下一篇

猜你喜欢

热点阅读