每日paper - 20211118 - AIMs panel
Developing ancestry informative marker panel for Nigeria- Cameroonian chimpanzees
2020 年发表在 Journal of Heredity 上。通讯作者为 Ranajit Das,来自印度海德拉巴大学 Department of Systems and Computational Biology,第一作者为 S Anjana。
摘要
黑猩猩(Pan troglodytes)被划分为两个生物地理学 clusters,包括四个亚种:西非 cluster 包括 P. t. verus 和 P. t. ellioti;非洲中部到东部 cluster 则是包括 P. t. troglodytes 和 P. t. schweinfurthii。虽然遗传上独特的尼日利亚-喀麦隆黑猩猩(P. t. ellioti)早已被发现,但是其内部的群体遗传结构还没有得到研究。
研究者们开发了第一套能够在尼日利亚-喀麦隆黑猩猩中高分辨率地检测群体结构的祖先推断位点(ancestry informative marker, AIMs)。
AIMs 检测策略主要有四种,Infocalc algorithm, Wright's , smart principal component analysis, 以及 ADMIXTURE。研究者们结合这四种方法(尤其是 Infocalc 和 ADMIXTURE),开发了一套含 435 个 SNP 的 AIMs panel。
正文
研究者们按照 Das et al. 2019 年对大猩猩成功开发出 AIMs panel 的方法,基于 Great Ape Genome Project database 的全基因组数据开发了对尼日利亚-喀麦隆黑猩猩的 AIMs panel。
Infocalc 能够确定多等位基因 SNP 对于祖先追溯的 informativeness,程序会输出 SNP 的 informativeness,研究者们选出了前一万个 SNP。
ADMIXTURE 输出的 .p 文件提供了研究的 SNP 来自哪些祖先。将 SNPs 按照不同列排序,取头一万个 SNP。
Wright's 分化指数,衡量分化程度,对每个 SNP 单独地计算分化指数,选择分化指数最高的一万个 SNP。
SmartPCA 进行聚类分析,能够给出每个 SNP 的 weightage,选出最高的一万个SNP。
将四种方法中都被选出的 SNP 作为 consensus SNP,与 CSS(complete set of SNP, 一整套 SNP)作比较。
基于全基因组(CSS)和选出的 SNP 计算遗传距离,并作比较。

从图 1 可以看出 Infocalc 和 ADMIXTURE 选出的 SNP 得到的结果和基于全基因组的很接近,而基于 FST 和 SmartPCA 的 SNP 表现则不那么好。总体上,选出的 AIMs dataset 能够很好地还原全基因组数据所展示的群体结构。
感觉原理其实很单纯。