四个基因组就发了nature!
这次,小编要为大家分享的是今年(2020)1月发表在nature上面的一篇文章:Ancient West African foragers in the context of African population history.本文的研究者通过在Shum Lake考古遗址中发现的四个孩子的古DNA数据推断出了全非洲的系统发育史!
Ancient West African foragers in the context of African population history
古基因组学研究终于到达了人类的摇篮:非洲
在正式理解文章之前,我们先理解一些群体遗传的分析方法:
①PCA:主成分分析是我们所熟知的一种降维处理数据的方法,在群体遗传当中也是最常用的手段之一,应用的数据主要是高密度的SNP标记(其他的分子标记也可以,但较为少用),其思想是通过将多个线性相关的变量(这里的变量是SNP),通过一系列的矩阵转换,变成几个变异解释度大的线性无关变量,也就是特征向量。其作用是用来分析大群体(全部样本)中存在的小群体结构分层,为推断全体历史做基础工作,在进行全基因组关联分析的时候也可以将PCA得到的群体结构作为协变量进行校正。
②分子系统发生推断(也就是我们常说的建进化树):系统发生是指生物或进化的历史,分子系统发生推断是根据现有的基因组数据来回溯推断某物种群体的进化历史的方法。在群体遗传中常利用的数据是分子标记数据(例如SNP数据),推断过程主要分为特征数据分析、系统发生树的构建以及结果的检验。当然这些现在都是通过软件实现的。建树是一个看上去比较简单但是却很需要经验的工作,因为要对推断的结果进行判断。
③等位基因共享分析:是基因组学中研究目标个体的亲属获得相同等位基因的概率是否大于随机抽样个体的预期概率的方法。也可以反向验证满足这种概率关系的个体是否存在亲属关系。常用的软件就是本文用到的ADMIXTOOLS.
那么下面正式来看一下本文的分析方法和对应的结果
1.基因组数据来源与处理
古DNA样本是在Shum Lake考古遗址中发现的,是来自四个孩子的,其中两个生活在8000年前,另外两个生活在3000年前。古DNA样本存在的岩骨在比利时皇家自然科学研究所的洁净室设备中处理,从岩骨中提取出DNA进行Illumina Hiseq测序。接下来使用比对软件BWA将测序数据比对到线粒体的参考基因组RSRS37和人类参考基因组hg19,进行一系列矫正后得到了120个SNPs。
除了这4个主要的古基因组,文中分析还加入了人类起源数据组中来自喀麦隆人群的63个个体的SNP数据。这63个个体的人群组成是:Aghem(28)、Bafut(11)、Bakoko(1)、Bangwa(2)和Mbo(21)。
图1:考古遗址概况
2.主成分分析和等位基因共享统计
作者利用smartpca对SNP数据进行主成分分析和等位基因共享统计,作者在主成分分析中预测了所有古代个体,以免因数据丢失而造成的误差。主成分分析可以清晰的看出来自Shum Lake的个体和不同的撒哈拉沙漠以南的非洲人之间的基因组层面之间的关系。在这两个PCA图(广义分析和狭义分析)中,较早的两个Shum Lake人稍微接近西非人和东非人。
图2:主成分分析结果
然后作者使用ADMIXTOOLS进行了f4-统计量分析来进行等位基因共享的统计,结果显示Shum Lake个体和来自中非西部的狩猎采集者的等位基因共享统计量最为显著。在通过PCA和等位基因共享分析之后,作者将样本确定为三个集群:(1) Mada and Fulani, (2) hunter-gatherers and (3) other populations who speak languages in the Niger–Congo family。
图3:等位基因共享统计
3.群体结构(遗传谱系合并)分析
作者接下来利用ADMIXTUREGRAPH这个R包对每个人群的SNP进行了遗传谱系系统发育的合并分析。结果显示在现代人类中,最深的分裂分支被认为是导致中非狩猎采集者的分支,尽管在很短的时间内有四个血统分化:那些为(1)中非狩猎采集者,(2)南部非洲狩猎采集者和(3)其他现代人类群体贡献主要祖先的人,以及与(4)一个未知的贡献来源(文中称为“鬼”来源)。中非狩猎采集者分为东部(Mbuti)和西部(western)两个分支;后者随后分支成以Aka和Shum Laka个体为代表的部分。其次,第二组分歧涉及西非人、两个东非血统(一个与狩猎采集者有关,另一个与农牧业者有关)和非非洲人(初步推断他们与莫塔人最接近,但没有深刻的幽灵血统)。在西非分支中,我们将约鲁巴和门德两个种群确定为姐妹群(其中勒芒为外群),最基本的是,一个单独的世系促成了Shum Laka个体(64%)。与讲班图语的人(与勒芒人关系最为密切)有联系的人贡献了阿卡59%的祖先和姆布提26%的祖先。
图4:admixture graph分析
结语:如今,尽管撒哈拉以南非洲地区的人是世界上遗传多样性最丰富的人,但该地区的许多居民有着相似的血统,因为大约在3000-5000年前开始了大规模的迁徙。这种迁徙起源于西非,被称为班图人的扩张,将农业和通用语言传播到东部和南部非洲,那里许多居民仍讲班图人的语言并拥有西非血统。语言学家和考古学家认为,班图扩张的起源是靠近现代喀麦隆和尼日利亚边界的一个名为“草原”的地区。那里使用的班图语比非洲其他任何地方都更加多样化,考古证据表明,该地区的人类正处于农作物驯化和数千年前过渡到农业生活方式的初期。本文从基因组学分析推断出其系统发育史!