微生物多样研究—关联分析及系统发生进化关系
一、关联分析
1. RDA/CCA分析
RDA或者CCA是基于对应分析发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。
此分析是主要用来反映菌群与环境因子之间关系。RDA是基于线性模型,CCA是基于单峰模型。分析可以检测环境因子、样本、菌群三者之间的关系或者两两之间的关系。
1)RDA或CCA模型的选择原则:先用species-sample数据(97%相似性的样本OTU表)做DCA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应该选CCA,如果3.0-4.0之间,选RDA和CCA均可,如果小于3.0,RDA的结果要好于CCA。
2)通过bioenv函数判断环境因子与样本群落分布差异的最大Pearson相关系数,通过最大相关系数得到环境因子子集。
3)将样本物种分布表与环境因子或环境因子子集分别做CCA或者RDA分析。
4)通过类似于ANOVA 的permutest分析来判断CCA或者RDA分析的显著性。
注:图中数字表示样本名,不同颜色或形状表示不同环境或条件下的样本组;箭头表示环境因子;图中蓝色倒三角表示不同的细菌类型;物种与环境因子之间的夹角代表物种与环境因子间的正、负相关关系(锐角:正相关;钝角:负相关;直角:无相关性);由不同的样本向各环境因子做垂线,投影点越相近说明样本间该环境因子属性值越相似,即环境因子对样本的影响程度相当。
2. OTU共表达网络分析
生态学中一般认为功能上关系密切的群落往往表现出丰度的“同升同降”,根据微生物群落丰度信息计算样本中物种之间的相关性,并据此划分不同的共变化组(Co-abundance group,CAG)。
可发现物种间的相互关系、CAG与生理指标或环境因子间的关系。
Network analysis of CAGs注:上图中一个节点代表一个OTU,同种颜色的节点代表一个CAG。节点间的连线的粗细代表OTU之间的相关性大小,线条越粗,相关性越大,图中只画出了相关性系数大于0.5的连线;红色线条表示正相关,灰色线条表示负相关。OTU共表达网络分析网络图的展示形式多变,一般显示样本间及物种间的关系,计算CAG时样本数须大于18个。
二、系统进化关系
在分子进化研究中,系统发生的推断能够揭示出有关生物进化过程的顺序,了解生物进化历史和机制,可以通过某一分类水平上序列间碱基的差异构建进化树。
newick是树状标准格式文件,可被多种建树软件识别,例如:PHYLIP、TREEVIEW、ARB。
newick格式:
(((SEQ1:0.02120,(SEQ2:0.09111,SEQ3:0.04491)node1:0.00097)node2:0.00194,(SEQ4:0.03160,SEQ5:0.04378)node3:0.00365)node4:0.00188,SEQ6:0.00881)node5:0.00739; 其中括号内聚到一起相似的树枝,冒号后为距离。
Phylogenetic tree注:进化树中每条树枝代表一个物种,树枝长度为两个物种间的进化距离,即物种的差异程度。