比较与进化基因组

每日paper - 20211118 - AIMs panel

2021-11-18  本文已影响0人  阿芃

Developing ancestry informative marker panel for Nigeria- Cameroonian chimpanzees

2020 年发表在 Journal of Heredity 上。通讯作者为 Ranajit Das,来自印度海德拉巴大学 Department of Systems and Computational Biology,第一作者为 S Anjana。

摘要

黑猩猩(Pan troglodytes)被划分为两个生物地理学 clusters,包括四个亚种:西非 cluster 包括 P. t. verusP. t. ellioti;非洲中部到东部 cluster 则是包括 P. t. troglodytesP. t. schweinfurthii。虽然遗传上独特的尼日利亚-喀麦隆黑猩猩(P. t. ellioti)早已被发现,但是其内部的群体遗传结构还没有得到研究。

研究者们开发了第一套能够在尼日利亚-喀麦隆黑猩猩中高分辨率地检测群体结构的祖先推断位点(ancestry informative marker, AIMs)。

AIMs 检测策略主要有四种,Infocalc algorithm, Wright's F_{ST} , smart principal component analysis, 以及 ADMIXTURE。研究者们结合这四种方法(尤其是 Infocalc 和 ADMIXTURE),开发了一套含 435 个 SNP 的 AIMs panel。

正文

研究者们按照 Das et al. 2019 年对大猩猩成功开发出 AIMs panel 的方法,基于 Great Ape Genome Project database 的全基因组数据开发了对尼日利亚-喀麦隆黑猩猩的 AIMs panel。

Infocalc 能够确定多等位基因 SNP 对于祖先追溯的 informativeness,程序会输出 SNP 的 informativeness,研究者们选出了前一万个 SNP。

ADMIXTURE 输出的 .p 文件提供了研究的 SNP 来自哪些祖先。将 SNPs 按照不同列排序,取头一万个 SNP。

Wright's F_{ST}  分化指数,衡量分化程度,对每个 SNP 单独地计算分化指数,选择分化指数最高的一万个 SNP。

SmartPCA 进行聚类分析,能够给出每个 SNP 的 weightage,选出最高的一万个SNP。

将四种方法中都被选出的 SNP 作为 consensus SNP,与 CSS(complete set of SNP, 一整套 SNP)作比较。

基于全基因组(CSS)和选出的 SNP 计算遗传距离,并作比较。

Figure 1. Admixture analysis of data subsets generated throughthe most informative SNPs detected by various AIMs-determiningstrategies. Admixture plots showing the ancestry components ofgorilla genomes. (a) Admixture analysis of the CSS (2,462,291SNPs); (b) Admixture analysis of Infocalc10,000 dataset; (c) Admixture analysis of Admixture10,000 dataset; (d) Admixture analysis ofFST10,000 dataset; (e) Admixture analysis of SmartPCA10,000dataset; (f) Admixture analysis of the AIMs (n = 435) dataset.Admixture proportions were generated through an unsupervisedadmixture analysis at K = 4 using ADMIXTURE v1.3 and plottedin R v3.6.0. Each individual is represented by a vertical linepartitioned into coloured segments whose lengths are proportionalto the contributions of the ancestral components to the genome ofthe individual. Purple colour represents western chimpanzees whilecyan, green and red represent individual chimpanzees with variousNigeria-Cameroonian ancestry.

从图 1 可以看出 Infocalc 和 ADMIXTURE 选出的 SNP 得到的结果和基于全基因组的很接近,而基于 FST 和 SmartPCA 的 SNP 表现则不那么好。总体上,选出的 AIMs dataset 能够很好地还原全基因组数据所展示的群体结构。

感觉原理其实很单纯。

上一篇下一篇

猜你喜欢

热点阅读