群落多样性之Beta多样性(一)
导语
再过不到一个月,就要高考了。
高考的重要性不言而喻,因为它检验的是努力;报考更重要,因为它是决定了方向,考生未来几十年的人生。
大家几无例外都会查一查中国大学排行榜,寻找着适合自己的理想学府。
中国大学排行榜是怎么做出来的呢?
它们就是根据科研实力、学生就业率等指标计算出一个总的分数进行排名,有多种版本,比如网大、武书连、中国校友会网等,其实算法和评价方式方面大同小异。
很多考生只会去关心排名,往往常忽略一个很重要的东西,就是各个高校之间的联系和区别,这类信息会让你会发现很多新的有价值的东西。
假如某学霸想报考工科院校,同时非清华北大不去。
这时候就要研究下清华和北大的联系和区别是什么?
它们都在北京海淀区,都很牛逼;北大侧重于理科和文科,清华更侧重于工科。
相必此时学霸应该知道怎么选择了吧。
倘若学霸觉得分数不太济,可能刚刚好够不上清华,咋整?哈工大,浙大,上海交大……都是中国顶级工科类院校。
如果想学建筑类专业,然后分数继续不济,“985”上不了,”211”还OK,怎么办?
这时候就应该知道“老八校”和“新四军”这两个说法,据说这些学校建筑学实力代表着业内最强水平。
建筑“老八校”发展到现在,只有一所不是“985”;“新四军“里面甚至还有一所学校连“211”都不是。
如果上不了985,那么根据自己的分数,从这里面选择最差的两个之一,就是最佳选择。
以低于985甚至211的分数,享受着211,985甚至高于985的教育,何乐而不为呢?
如此说来,像“学科侧重方向”,“老八校”,“新四军”,这类信息是排行榜这类榜单无法给出的。
所以说,报考是一门学问,同样,生物多样性研究也是一门学问。
Alpha多样性与Beta多样性
前面所说的Alpha多样性指标,是一个一维的数值,指的是环境样本内物种多样性大小,即Within Sample,如同高校排行榜,仅能体现物种多样性指标的大小排名。
比如表1就是在A(A1~3)和(B1~3)两组样本中以观察到物种数/OTUs(Obs)降序排列获得的Obs指标龙虎榜。
如果想用多维的方式去描述Alpha多样性也不是不可以,需要加点料,即坐标轴。比如下图:
图1. 人类群体肠道菌群多样性随年龄增长而增加
这张图来自于2012年发表在Nature上的一篇经典文章[1]。
图1a表述的是观察到的是不同年龄不同地区人群肠道微生物群落物种数量(OTU数量)的分布散点图。横纵坐标分别表示年龄和肠道中观察到的物种数。其中的规律显而易见,从出生开始随着年龄的增长,人的肠道微生物不断增加,在3岁左右达到一个平台期,这个可参考图1b。图中点的颜色用来区分来自不同地区的人:非洲马拉维人(Malawians),美洲印第安人(Amerindian)和美国公民(US residents),成年人中经济条件差的地区(马拉维人和美洲印第安人生活的地方)人肠道微生物种类要显著高于经济条件好的地区(P<0.005),而儿童中并未发现地区性的显著差异。这似乎让我想起了孔圣人曾经说的那句话:人之初,性本善,性相近,习相远。跟此研究有着异曲同工之妙啊。如此从肠道数据上来看,大家差不多是生而平等的,从这份数据看来大家出生的时候跟王思聪的也没什么差别,没必要先天性地对他进行个人崇拜。
Alpha多样性指标可描述样本内物种多样性,这个指标仅与当前样本有关,与其他样本无关,因此样本之间的差异远近关系用Alpha多样性难以表达。对于环境样本,不同的样本中往往分布着不同的生物群落。对这些生物群落之间的差异进行量化,不仅可以帮助研究者理解各个样本的生物多样性如何,还可以帮助解释样本为什么以这种方式聚集或分散。这就涉及到生物群落多样性的另外一种表达方式,即Beta多样性。
Beta多样性一词是惠特克(1960)提出的,定义为群落组成变化的程度,或群落分化的程度,与环境的复杂梯度或环境的模式有关。这么看有点难以理解,我们换句好理解的话说,就是样本间的差距,针对的是Between Samples,请注意要与Alpha多样性所针对的的Within Sample有所区分。
Beta多样性分析
广义上说,Beta多样性分析包括分两部分:距离的计算和距离的展示。
Beta多样性的简单计算
先说距离的计算。
狭义上说,Beta多样性的分析仅仅就指是对样本间差异距离的分析。
当然这个狭义和广义仅仅是我个人的理解。
如何计算两样本Beta多样性差异距离?
还是老套路,从最简单直接的开始。
一个极粗野豪迈的计算公式:
S1是指样本1中包含的物种数;
S2是指样本2中包含的物种数;
C指的是样本1和样本2中共有的物种数;
比如两个环境样本中共有12个物种: A, B, C, D, E, F, G, H, I, J, K, L.
样本1中有10个物种:A-J;
样本2中有7个物种:F-L;
两者共有的物种有5个:F-J。
那么他们的差异距离,代入公式就是:
也就是说,有7个物种要么只存在于环境1中,要么只存在于环境2中[2]。
Beta多样性的展示
Beta多样性可以用一到多维度的数据表现出来,不仅可以反映了样本多样性之间的关系,而且还反映了生物群落之间的分化程度。
我们还是从一维的数据展示开始。
再来一张图,还是那篇文章的,就逮着一只“羊”薅毛,谁让它经典呢!
图2. 儿童和成人之间的UniFrac距离随着儿童年龄的增长而缩短
这张图与图1a唯一不同的仅有纵坐标。纵坐标数值是应用一种叫UniFrac距离的计算方法量化了各组样本中的未成年人对比成年人数据的差异。每一个点都表示了一个未成年人和所有来自同一国家、且与他无关的成年人之间的平均UniFrac距离。此图和图1a的表达出来的意思基本相吻合,随着年龄的增长,未成年人和成年人的肠道微生多样性差距越来越小。此文献上的官方说法是在所有三个不同地区的人中,肠道菌群的系统发育组成在出生后的三年内都向着成人的状态变化。
那么成人的肠道菌群差距是如何呢?
是时候轮到二维数据上场了,见图3。
图3 是根据16S rDNA数据分析得到的能够标识物种的序列多样性对比,计算出Unifrac距离矩阵,据此进行了主坐标分析(Principal Co-ordinates Analysis, PCoA)获得的二维数据。PC1和PC2分别表示数据降维后排名前两位的主坐标轴,这两个主坐标分别占25%和6.6%的数据解释度。
两个相互独立的主坐标,构成的平面,可明显观察出发达地区(US)的多样性距离聚集现象,以及与欠发达地区可明显分开。
图 3. 未加权UniFrac距离的PCoA对成虫粪便微生物群的影响.png
俗话PCoA
那么什么是主坐标分析呢?
与主坐标类似的分析方法还有两种:主成分分析(Principle Compounent Analysis, PCA)和多维尺度分析(Multidimensional Scaling, MDS)。
三者的基本分析步骤见图4。
两个步骤:1) 获得数据关系矩阵。2) 数据降维。
唯一的不同之处就是开始时应用的数据关系矩阵不同,PCA用的是样本之间的相关性矩阵,而PCoA和MDS应用的是样本之间的距离矩阵,比如欧氏距离、Unifrac距离等。
放在16S序列分析中就是根据OTU丰度表计算出各个样本之间的相关性或者Unifrac距离。
图4 PCA、PCoA和MDS分析的基本步骤
那么啥是降维呢?
现在桌上有半包烟,需要我们用图片的方式把这半包烟的数据完整的表述出来。采集完备数据的科学做法是采用机械制图方法,绘制出半包烟的正视图、左视图、右视图、俯视图、甚至细节剖面图等(图4a-d)。应用这些图,我们能够描述出这半包烟的完整信息,但是它们是多维的数据很不直观。
这相当于我们分析16S序列数据后得到的OTU丰度表,你从这张表中很难发现样本之间的关系有何规律。
图5. 通俗方式理解数据降维 因此为求直观,你只能用一张照片尽可能多地展示这半包烟的信息,这张照片怎么拍?
其实大家都会拍,
首先,把烟盒打开,露出半包烟的更多信息,即烟杆、内衬锡纸等。
然后,要选择好拍摄角度,差不多斜上方45°角。
这样基本上这半包烟在一张照片上的信息量就做到了尽可能多。
尽管这样会损失一些信息(图4σ照片中不可见的几个面),但这可仅仅是二维数据,包含信息最全的二维数据,直观啊!
这就是降维。
意思就是说原始数据要多维数据(正视图、左右视图、俯视图、分层剖面图等)才能表达最完整信息。而降维之后,仅仅二维坐标系(一张图片)即可展示出相对来说相对较完整的半包烟是什么样的。
即把多维数据转换成尽可能包含最全信息的二维数据。
当然如果降维后二维没法得到自己想要的结果,可以采用三维展示(图6)。
图6 基于Bray-Curtis距离矩阵得到的3D PCA图[3]。(此图显示了裸鼹鼠大鼠(粉色)、小鼠(绿色)、西方成年人类(蓝色)与一组不同陆生哺乳动物(红色食肉动物(C1-C5)、橙色食肉动物(O1-O9)、黄色食草动物(H1-H17)之间的分离现象,这些动物基于它们的肠道微生物组成。)
后记
查寻各个学校的有关资料,我们会发现这些学校之间的区别和联系等信息。
倘若把所包含的学科看做样本中存在的物种,学术水平分数看做物种绝对丰度。
按照上述的分析方式根据相关性或者距离指标做个聚类,
哪些学校会和哪些学校聚为一类呢?
PCA/PCoA/MDS分析后,这些学校之间的直观差距到底有多大呢?
这个Idea就免费送给相关学者去研究啦。
作为生物狗,我就不搀和了。
参考文献
[1] Whittaker, R. H. (1960) Vegetation of the Siskiyou Mountains, Oregon and California. Ecological Monographs, 30, 280-338.
[2] https://sciencing.com/calculate-beta-diversity-5649801.html
[3] Debebe T, Biagi E, Soverini M, et al. Unraveling the gut microbiome of the long-lived naked mole-rat[J]. Scientific reports, 2017, 7(1): 9590.