第三章 微生物组数据统计分析简介
3.1 人类微生物组数据研究的主题和统计假设
目前的微生物组研究主要有两个主题:(1)描述微生物组特征与生物、遗传、临床或实验条件之间的关系;(2)确定与微生物组组成相关的潜在生物和环境因素。研究目的是了解宿主、遗传和环境因素形成微生物群落的机制。从这些研究中获得的见解可能有助于开发调节人类疾病微生物群组成的治疗策略.
环境、微生物群和寄主之间的相互作用是动态的和复杂的.
微生物组研究中环境、微生物群和宿主之间的动态相互作用为了研究这种相互作用,可以提出三个一般性的研究假设。假设1是测试微生物群和宿主之间的联系:微生物群或“非生物”微生物群的组成是否与宿主的健康或疾病有关。例如,在炎症性肠病(IBD)的研究中,我们假设生物失调与疾病的进展。在维生素D受体(VDR)和微生物群的研究中,我们假设缺乏VDR会导致小鼠肠道微生物群的失调和功能改变 。这一假设也可能基于微生物群落和生物学因素,如细菌群落的改变与肠上皮细胞中的VDR状态有关。
假设2是测试微生物群是否与环境或生物协变量相关,环境因素是否影响微生物群,或干预措施是否对健康和疾病中的特定微生物群组成(多样性)产生影响。例如,我们可以测试饮食干预是否影响肠道菌群,或者益生菌干预是否影响人类菌群组成。我们还可以假设抗生素和饮食影响肠道微生物群落结构,营养影响肠道微生物群组成,或者抗生素治疗影响肠道细菌菌株的多样性。
假设3是测试环境和宿主之间的联系。为了检验这一假设,我们可以使用其他生物医学科学中常用的标准统计方法和模型。对于微生物组研究,重点放在假设1和2上。这些统计假设的核心主题可以是相同的,即探索环境或外部因素(例如干预)对微生物群组成和/或微生物区系丰富度的影响。然而,研究主题在alpha多样性(每个个体样本中的物种多样性)、细菌丰富度、独特可操作分类单元(OTU)的总数、系统发育多样性(不同系统发生谱系的相对数量)和每个样本中的物种均匀性之间是不同的。
统计假设可能是alpha多样性。例如,对于抗生素研究,我们假设抗生素治疗会降低微生物多样性,或不降低微生物多样性。因此,接受特别抗生素治疗的儿童具有或多或少相同的肠道微生物区系。统计假设也可以是β多样性,例如,物种或菌株的Jaccard指数或UniFrac系统发育距离。统计假设甚至可以是时间微生物群落。例如,我们可以假设所有的菌株都是相似的,微生物群落是稳定的(不会随着时间的推移而改变),或者与非抗生素使用者相比,抗生素治疗使菌株不那么相似和不稳定。
3.2 微生物组研究的经典统计方法和模型
经典统计检验:有许多经典的统计检验可以用来分析微生物群。微生物分类群中的假设检验可以通过比较α和β多样性指数来进行。根据数据是正态分布还是非正态分布、实验组数或实验条件,我们可以使用t检验、方差分析(ANOVA)或相应的非参数检验。两样本t检验及其非参数对应的Wilcoxon秩和检验在微生物群研究中被广泛用于比较两组间的连续变量。例如,使用标准t检验来比较α多样性或种群数量在两组相对丰度数据之间。标准t检验甚至被用来比较健康志愿者和结直肠癌(CRC)患者之间不同门和属的相对丰度。采用非参数相似Wilcoxon秩和检验(也称为Mann-Whitney检验)来比较α多样性,例如Shannon多样性,由细菌分类组成定义的两个簇。Wilcoxon秩和检验也被用来识别微生物分类群或OTUS的差异,以及其他非参数测量,以及不同门和属的相对丰度。当比较两组以上时,选择单向方差分析或其非参数等价的Kruskal-Wallis检验,这取决于变量是否为正态分布。方差分析用于分析分类多样性数据,例如β多样性,以比较成比例的丰度,以评估肠道微生物群对体重指数或血脂的风险模型,以及分类学和特定于功能的偏向。方差检验也被用来比较肠道不同部位的微生物群的功能能力。Kruskal-Wallis单因素方差分析用于比较样本的细菌和真菌比例的归一化z分数,以及微生物组数据的不等方差。卡方检验通常用于比较分类微生物组数据。例如,测试单个先验指定的分类单元在不同的组之间以不同的速度出现。为了检测差异丰富的分类群,有研究小组结合了几种经典的统计方法和程序,提出了一种统计方法,称为“Metastats”。首先,将原始排序计数(丰度数据)归一化或转换为表示每个分类单元对每个个体的比例的相对丰度数据。其次,利用Storey和Tibshiani的排列法,采用双样本非参数t检验分析了两个处理组之间的差异丰度。第三,为了控制多重假设检验分类群中的错误发现率(FDR),使用Q值来评估检验的重要性。最后,为了处理稀疏计数,费舍尔精确检验被用来比较稀疏样本(稀有)分类群的微分丰度。Metastats表明它优于学生的t检验,Lu等人的对数线性模型和负二项(NB)模型。实际上,该方法是一种结合了几种经典统计方法和过程的混合方法。统计框架是双样本t检验的扩展。
多元统计工具:环境中的微生物群落可以用多元统计方法或模型进行分析。有许多统计模型和方法可用于分析微生物群落组成与环境协变量和结果之间的关系。微生物群研究中使用的大多数多元统计工具都来自生态研究领域和环境科学。由于数据的高维性、非正态性和系统发育结构,很难利用OTUS或类群丰度直接测试微生物组组成与潜在环境因子的关联。一般情况下,多变量分析首先需要选择一种距离度量方法,然后再进行距离度量分析估计的距离,其中定义了两个微生物样本之间的距离度量。在分析微生物组数据时,可以使用几种组间差异测试:多变量排列方差分析(PERMANOVA)、组相似性分析(ANOSIM)、多响应排列程序(MRPP)和Mantel检验(Mantel)。PERMANOVA是由Anderson和McArdle提出的,用于将强大的方差分析应用于多变量生态数据集。PERMANOVA是将多变量模型拟合到微生物组数据中应用最广泛的非参数方法之一。它是一种基于距离矩阵和排列的多变量方差分析。与MRPP和其他多变量分析类似,PERMANOVA通常与距离度量方法之一一起使用。例如,使用未加权的UniFrac距离测量的PERMANOVA被用来显示杂食动物与素食者肠道微生物区系的组成,以评估与β多样性措施的关联,以测试种群之间的微生物差异和BrayCurtis相异度矩阵。ANOSIM是微生物组研究中应用最广泛的多变量方法之一。它用于比较组内和组间的相似性,以检验组内样本之间的平均等级相似性与属于不同组的样本之间的平均等级相似性相同的零假设。例如,使用加权和未加权的UniFrac距离来测试处理之间和处理内时间点之间与微生物群组成的关联强度。在微生物组文献中,在成对加权的UniFrac距离矩阵上进行MRPP以确认聚类的意义,以测试影响微生物群落的因素,并将群落差异与Bray-Curtis距离进行比较。与相关分析一样,曼特尔的测试也被用来测试环境因素和宿主微生物群之间的关联。例如,为了测试微生物群变异是否解释宿主中的微生物群变异,宿主遗传距离与群落β多样性方差之间的关联,捐赠者微生物群和BMI,甚至找出微生物群组成的预测因子。
过度分散和零膨胀模型:微生物组研究中的类群计数数据,如微生物组分类reads或来自扩增子测序实验的OTU计数,或来自RNA-Seq实验的差异表达数据,通常是过度分散的,并且具有多余的零。在宏基因组计数数据中,基因特异性变异性在基因和过度分散经常发生,并影响识别差异丰富的基因。在宏基因组学中,由于各种因素也会出现过多的零,例如,由于生物医学技术的限制而无法检测到的基因的丰度。由于细菌群落之间的巨大多样性,抽样零也可能发生 。为了拟合具有超离散度和过零点的微生物计数数据,通常采用负二项模型和零膨胀模型。例如,用NB模型分析了帕金森病的微生物组丰度数据和肠道微生物组。NB模型用于评估序列标签丰度的差异,并检测临床宏基因组样本中差异丰富的特征。人类肠道中细菌的丰度的特点是在较低的分类水平上有越来越多的零,并且是右偏的。为了捕捉过多零点的特征并对偏斜的微生物组数据进行建模,需要一个零膨胀模型,如零膨胀泊松模型(ZIP)、零膨胀负二项模型(ZINB)或栅栏模型。在微生物群研究中使用零膨胀模型的适宜性是通过广泛的模拟和真实的人类微生物群研究来评估的。为了捕获多余的零并对倾斜的微生物组数据进行建模,有研究小组使用具有负二项分布的障碍模型来分析细菌的物种(97%的相似性阈值OTUS)。为了识别与不同细菌分类群相关的环境或生物协变量,同时考虑到过度分散和许多零,有研究小组提出应用加性Logistic正态多项式回归模型将协变量与细菌组成(计数)联系起来,并应用该模型来分析饮食和粪便微生物群组成之间的关联。
3.3 新发展的多元变量统计方法
为了更好地拟合多变量数据,特别是微生物组数据,近年来,研究者和统计学家开发了几种参数和非参数模型,以下几个发展多元统计方法的方向。
Dirichlet-多项式模型:在参数概率模型中,多项式分布和Dirichlet多项式分布是最常用的。基于Dirichlet多项式混合模型 、La Rosa和同事们进一步提出了一种多元统计方为基于分类学的人类微生物群数据的假设检验和功率计算。作者将Dirichlet多项式模型重新参数化到Dirichlet多项式混合,使其适合于基于位置(均值比较)和尺度(方差比较/离散度)之间的差异进行跨组假设检验。它在R统计软件包“HMP”中实现。使用来自NIH人类微生物组项目(IHMP)的数据。当研究人员和统计学家设计微生物组研究时,它进行功率计算的能力也很有吸引力。
UniFrac距离度量类:为了比较微生物群落,多变量分析首先需要选择一种距离测量方法。已经提出了许多距离措施。其中,系统发育距离度量是非常强大的工具箱,因为它利用了不同序列之间的差异程度,它解释了分类群之间的系统发育关系。为了在计算微生物群落之间的差异时捕捉系统发育信息,Lozupone和Knight在2005年提出了UniFrac距离度量。UniFrac测量系统发育树中分类群组之间的系统发育距离。UniFrac距离度量的目标是实现来自不同条件的微生物样本之间的客观比较。2007年,Lozupone 向原始的UniFrac添加了比例权重,并将它们区分为未加权的UniFrac和加权的UniFrac。从那时起,UniFrac的两个版本在微生物组文献中可用,并已被应用于数千种研究出版物,几乎涵盖了从人类疾病到一般生态学的一切。未加权的UniFrac距离只考虑物种的存在和缺失信息,计算每个群落特有的分枝长度;加权的UniFrac距离利用物种丰度信息,根据丰度差异对分枝长度进行加权。这两个UniFrac距离已成为应用最广泛的系统发育距离度量。然而,它们也有局限性:评估给稀有谱系(未加权的UniFrac距离)或最丰富的谱系(加权的UniFrac距离)赋予了太多的权重,因此,在检测适度丰富的谱系的变化方面可能不是很强大。基于方差调整的加权UniFrac距离(VAWUniFrac),开发的广义UniFrac距离扩展了加权和未加权的UniFrac距离,用于检测更广泛的生物学范围微生物群组成的相关变化。现在,UniFrac工具箱系列已从UniFrac距离扩展到通用UniFrac距离。通过分析两个真实的人类肠道微生物组数据集,证明了广义UniFrac距离在检测微生物组差异方面的作用,这些数据集与人类肠道微生物组组成和长期饮食有关,并测试吸烟者和不吸烟者之间的上呼吸道微生物群差异使用PERMANOVA。通过结合UniFrac距离和PERMANOVA,广义UniFrac距离度量提供了一种统计方法来检验微生物群组成与环境协变量之间的关联。UniFrac工具箱中增加了两个新开发的UniFrac工具:Micropower R Package和UniFrac R程序。在微能组件中,将未加权和加权UniFrac距离的度量纳入成对距离的分析中,并将PERMANOVA用于幂估计和样本量估计。在成分数据分析的背景下,引入了两个新的权重:信息统一帧(Information UniFrac)和比率统一帧(Ratio UniFrac),它们对稀疏不那么敏感,并且允许比传统的未加权和加权统一帧更好地分离异常值。其目标是解决未加权UniFrac对稀疏实例高度敏感的限制,以及在没有清晰结构或组间分离的统一数据集中对测序深度的限制。
多元贝叶斯模型:①Multivariate Bayesian Mixed-Effects Model:Grantham等人。提出了一个贝叶斯混合效应模型,称为MIMIX(微生物组混合模型),用于联合而不是单独分析微生物分类群。MIMIX的能力包括:全局测试对微生物组组成的实验性处理效果,局部测试和评估对单个分类群的处理效果;量化分析微生物组的异质性,以及表征微生物组中的潜在结构。MIMIX是基于Logistic正态多项式(LNM)的混合效应模型。作为一种贝叶斯模型,MIMIX使用贝叶斯因子分析来捕捉微生物分类群之间的复杂依赖模式,并使用连续收缩的Dirichlet-Laplace先验以确定对实验条件反应相似的微生物群。该模型的作者认为,在模拟研究和真实数据中,MIMIX在检测显著信号的存在和估计稀疏处理效果方面优于具有Bray-Curtis不同的PERMANOVA。然而,需要更多的研究来证实这一模型的性能。类似于Grantham等人联合模拟微生物类群丰度的方法,Ren等人。提出了一个贝叶斯广义混合效应回归模型来解释微生物分类群之间的相关性,并允许借用跨分类群的信息。以前的多变量方法要么假设多变量Logistic正态分布或独立的Dirichlet分发。Ren等人提出的贝叶斯非参数模型的区别。在于:(1)在调整低维空间的同时,使用边际Dirichlet过程先验和潜在因素上的收缩先验将微生物组成和协变量联系起来,以及(2)可视化协变量和微生物组成之间的关联。②Multivariate Bayesian Graphical Compositional Regression:在第一章第二节描述了微生物群落组成数据具有以下特点:(A)高维;(B)稀疏性和过零点计数;(C)复杂的协方差结构;(D)过度离散性。为了瞄准大的组内异质性和潜在的混杂因素,提出了一种针对组成微生物组数据的贝叶斯图形回归,基于Dirichlet树多项式(DTM)模型。与Dirichlet-Polyomial(DM)分布类似,所提出的方法使用DM并纳入系统发育信息,但直接使用系统发育树作为推理工具。建议的方法将DTM分布和图形模型纳入贝叶斯测试框架下。DTM将传统的DM扩展到系统发育树上,并提供了更大的灵活性。此外,开发的贝叶斯图形测试侧重于通过调整协变量在贝叶斯图形组成回归(BGCR)框架下有效地比较组差异。将BGCR方法与DTM方法进行比和DM测试,BGCR的性能优于其他方法。③Bayesian Variable Selection for Multivariate Zero-Inflated Models:联合建模多个分类单元比特定于分类单元的单变量分析更有效。然而,微生物组数据的多变量分析,特别是具有协变量的零膨胀微生物组数据的多变量分析是一个挑战。Lee提出了一种多元零膨胀高维协变量数据的贝叶斯变量选择方法。所提出的多变量零膨胀泊松(MZIP)分布模型不需要指定协方差结构,而是结合了贝叶斯变量选择。
Phylogenetic LASSO and Microbiome:微生物组数据是高维的,往往具有很大的p和很小的n,这表明数据观测很少,分类群很多,分类群甚至比数据观测还要多。在数据矩阵方面,p表示列数,n表示行数,则问题大p小n意味着较小的n个样本(数据观测)包含较大的p个分类群。从图形上看,这意味着在p维空间中有n个样本。从统计学上讲,高维数据的建模有很多挑战。我们需要处理两个不排除的问题:解决大p和小n问题,以及处理变截面问题。通常,较大的p需要较大的n。为了有效地模拟具有较大p和较小n的高维微生物组数据,一种方法是充分降维,即降低预测因子的维数,直到预测因子与响应之间的回归关系仍然保持。在微生物群研究中,协变量之间也是相互关联的,这给变量的选择带来了更多的挑战。因此,需要有足够的变量选择。为了解决大p,小n的问题,人们提出了许多降维和变量选择的方法。在变量选择方法中,几种基于模型的惩罚方法非常有用,包括套索。“生命树”示意图,即与系统发育相关的不同分类级别的细菌群,增加了高维数据结构的复杂性。Kim和他的团队通过系统发育LASSO(最小绝对收缩和选择算子)技术,将微生物群作为响应生物学或临床结果的协变量纳入其中。与其他变量选择方法类似,它们的变量选择方法也结合了生命树模式。Kim等人发展的系统发育套索。具有分级惩罚方案和可行的协变量分组方式。例如,基于分组是否嵌套,分别以图形方式表示树或循环。此外,系统发育套索使用凸对数似然函数,不同于使用惩罚最小二乘的等级制H-套索。系统发育套索估计算法依赖于迭代自适应重加权。系统发育套索可以用来选择OTU、类群或任何其他“组学”数据作为协变量,然后用Logistic回归对响应进行建模,如协变量是否可以预测粪菌移植(FMT)。Kim等人。将系统发育套索模型与SCAD(平滑剪裁绝对偏差)模型,以及甲骨文模型的普通最小二乘(OLS)进行比较,他们得出结论:基于一项真实的临床研究,系统发育套索模型优于SCAD和OLS模型。
3.4 微生物组数据的组成型分析
早在1897年, Pearson就已经说,当在器官测量中使用两个绝对测量的比率时,可能会形成“虚假相关”。自二十世纪下半叶以来,研究人员在地质学中已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。20世纪80年代,特别是在1986年的开创性工作)中,艾奇森意识到关于成分的每一项陈述都可以用成分比率来表示,并开发了一套基本原则、各种方法、操作和工具来进行成分数据分析。其中,logro变换方法被地质学、生态学和其他领域的统计学家和研究人员广泛接受,因为通过LOGITO变换,可以消除成分数据的受限样本空间(单纯形)的问题,并将数据投影到多变量实数空间。因此,所有可用的标准多变量技术都可以再次用于分析成分数据。一系列出版物已经表明,地质学、生态学和其他领域中用于成分数据分析的现有工具易于修改,也是分析微生物组高通量测序数据的有效方法。微生物组分数据分析的方法和工具的发展是最新的。开发方法侧重于消除成分限制:样本中所有微生物的相对丰度之和为1。这种约束导致组成数据驻留在单纯形而不是欧几里德空间。为了适当比较微生物组成,开发方法从样本中的类群丰度(OTU)推断其在生态系统中的分类单元相对丰度(OTU),而不是生态系统中的总丰度(OTU)。为了避免“虚假相关”,Lovell提出了用于分析相对数据的比例度量,因为比例是对相关数据进行适当的相关性分析。ERB和NOTREDAME进一步提出了部分相称性,这是从部分相关性中采纳的定义。为了识别比例丰富的分类群,ERb等人提出了差别比例的统计数据。它相当于分类单元比的单因素方差分析。比较微生物组组成最具代表性的研究方法是类方差分析差异表达(ALDEx和ALDEx2)。从根本上说,这两种方法都使用LOGITRO变换技术来转换微生物组数据,从而消除了成分限制,使标准的多变量技术适用于分析。ANCOM是一个统计框架,开发该框架是为了说明在生态系统水平上检测微生物平均类群丰度差异时的成分限制,以减少错误发现。它是以成分对数比为基础的。作者将ANCOM与ZIG进行了比较,并将t检验与模拟研究和实际数据进行了比较。他们的结论是,ANCOM在以下方面优于ZIG方法,大大降低了FDR,提高了功率。ANCOM很有吸引力,因为它不做分布假设,可以在线性模型框架中实现,以调整协变量和模型纵向数据。与ANCOM相比,ALDEx和ALDEx2更全面。它们几乎适用于由高通量测序产生的任何类型的数据。它们适用于多种不同实验设计的比较。统计分析包括双样本配对t检验、方差分析和非参数检验,如Welch t检验、Wilcoxon秩和检验、Kruskal-Wallis检验等。他们还可以选择使用Benjamin-Hochberg方法调整p值。
3.5 微生物群研究中的纵向数据分析与因果推理
微生物群是动态的,由与宿主和环境的相互作用驱动,并且随着时间的推移而变化。因此,纵向微生物组数据分析提供了关于微生物组与宿主和环境相互作用的丰富信息。纵向研究的显著特点是在研究期间重复测量受试者,从而可以直接评估响应变量随时间的变化。纵向研究还捕捉到个体间的差异(个体间的异质性)和受试者内部的动态变化。它提供了研究复杂的生物学、心理学和行为假说的机会,特别是那些涉及随时间变化的假说。纵向分析的优势也适用于微生物组数据。通过对饮食等方面的干预,以及对由微生物群引起的慢性病的发展和持续,将加深我们对微生物菌群的短期和长期趋势的了解。
标准纵向模型:微生物组数据的纵向设计和分析已被用于各个领域,包括:人类婴儿肠道微生物组在1型糖尿病发展中的作用。广义估计方程(GEES)和广义线性混合效应模型(GLMM)是纵向背景下最流行的两种样式。因此,GEE和GLMM最有可能用于微生物组研究。例如,这些模型被用来分析怀孕和非怀孕妇女在微生物群组成和稳定性方面的差异;ZINB混合效应模型用于分析食管炎患者的人体微生物区系序列数据。通常,为了解释分类丰度计数数据的过度离散和零膨胀特征,选择NB或零膨胀NB分布来模拟具有随机效应的每个系统类型的计数数据,以考虑纵向数据设置下的相关性。重要的是,我们需要比较微生物的相对丰度,而不是组间的绝对计数。通过向NB分量的线性预测器函数添加偏移项,即读取总reads的对数,将绝对计数转换为考虑到每个样本的可变reads的相对丰度。为了将分类群丰度视为连续变量,并对分类群丰度和协变量之间的趋势(线性关系)进行建模,使用了在对象协方差结构内具有自回归的线性混合效应模型。但是,这种方法并没有明确处理数据中的零膨胀和过度离散性。
新发展的过分散和零膨胀纵向模型:①Zero-Inflated Gaussian Mixture Model,为了解决零膨胀和过度分散的问题,同时识别与协变量相关的细菌分类群,已经提出了几个统计模型。Paulson提出了零膨胀高斯(ZIG)混合模型。混合模型的设计使用累积和尺度归一化技术来校正总和归一化在差分丰度评估中引入的偏差,以及零膨胀高斯分布混合模型来解释由于微生物群落的欠采样而导致的差分丰度测试中的偏差。该模型寻求直接估计由于采样不足或从计数分布(微生物群落中没有分类特征)的检测分布产生观测到的零的概率。Zig型混合模型对数变换16SrRNA测序数据的读取计数,然后使用经验贝叶斯过程估计缓和方差。由于样本中的零计数,缓和的方差解释了偏差。使用来自纵向微生物组研究的数据,应用了这种ZIG方法。它在metagenomeSeq BioConductor软件包中实现。作者使用模拟研究和真实数据将ZIG与现有工具进行比较,并得出结论:ZIG优于该领域中广泛使用的其他统计方法,如Kruskal-Wallis检验,并且ZIG产生了对数据更精确的生物学解释。然而,经验贝叶斯方法到纵向环境的扩展被审查为不清楚。②Extensions of Negative Binomial Mixed-Effects and Zero-Inflated Negative Binomial Models,在纵向设置内,负二项混合效应模型(NBMM)是用于检测微生物群与宿主环境/临床因素之间的关联的统计模型,用于相关的微生物群计数数据。NBMM以NB模型为基础,在固定效应中加入随机效应,以考虑样本间的相关性。NBMM通过来自NB的过色散参数处理过色散并改变总reads。标准NB模型与NBMM的不同之处在于NBMM采用迭代加权最小二乘(IWLS)算法进行拟合。然而,这些模型不能处理零通胀。为了解释过度分散和过多的零点,同一作者提出了ZINB回归,用于识别两个或更多种群之间差异丰富的类群。建议的ZINB使用两部分混合:NB分量用于说明过度分散,Logistic回归分量用于说明多余的零。标准ZINB模型与这种ZINB扩展模型的区别在于后者使用了IWLS和EM(期望最大化)算法。在该方法的作者进行的模拟研究中,ZINB在基于AUC(曲线下面积)估计的各种稀疏场景中的性能优于DESeq、Edger和metagenomeSeq。实际数据也表明,这一结果与之前的研究一致。③Bayesian Semiparametric Generalized Linear Regression Model,Lee和Sison-Mangus提出了一个贝叶斯半参数广义线性回归模型来研究微生物丰度和演替变化与宿主环境/临床因素(即物理和生物因素)之间的关系。该模型在广义线性回归模型的基础上,利用稀疏诱导先验--拉普拉斯先验,改进了协变量效应对OTUS代表的微生物物种平均丰度的估计。类似于Zhang等人的NBMM,该方法指定Nb分布,并假定OTU计数的过色散参数。与其他方法相比,例如在Romero等人中,在建模之前,所提出的方法不会对OTU计数进行归一化以调整样本总数之间的差异。相反,它联合分析所有OTU,同时执行对OTU丰度的协变量效应的归一化和估计。④Zero-Inflated Beta Regression Model with Random-Effects,在纵向微生物群数据设置下,Chen和Li提出了一个具有随机效应的两部分零膨胀Beta回归模型(ZIBR)来检验微生物丰度与临床协变量之间的关系。ZIBR将微生物组数据视为成分。ZIBR的目的是解释微生物组组成数据的三个特征:高度倾斜,有界在[0,1]内,在考虑同一对象上重复测量的观测结果的相关性时,通常以许多零来稀疏。⑤Differential Distribution Analysis Based on Zero-Inflated Negative Binomial Model,Chen提出了一个基于ZINB(零膨胀负二项)回归模型的微生物组数据差分分布分析的一般框架。首先,基于计数的ZINB模型已被测试为最适合于零膨胀和过度分散的数据。有人建议微生物组数据在统计学上和生物学上也更合适。其次,零膨胀模型在生物学上更具解释力,因为与 hurdle model 相比,混合观测零点(即“结构零点”和“采样零点”)的假设与观察到的人类微生物群数据更一致。以前的零膨胀模型将离散视为所有协变量上的公害和公共参数。相反,建议的方法允许协变量相关的离散度:离散度依赖于协变量,如疾病状况,并解决异常值以提高零膨胀模型的稳健性。为了识别相关的微生物类群,该方法还可以进行流行度、丰度和分散度参数的综合测试。⑥Mixed-Effects Dirichlet-Tree Multinomial (DTM) Model,有人提出了一种混合效应的DTM模型,以便容易地使用经验贝叶斯收缩来增强微生物比例推断。它结合了微生物组研究中的协变量和相关的分类群。在考虑协变量时,侧重于预测,而不是比较。建议的混合效果DTM模型有三个特点:首先,使用混合效应的Dirichlet-tree多项式分布来提高表型-微生物组关联性的检测和预测的准确性。利用DTM自然结合测序深度、过度分散和容易适应局部信号的优点。其次,基于混合效应DTM模型去除了不需要的协变量效应,并采用多尺度经验贝叶斯收缩来改进微生物比例的估计。第三,使用随机森林结合收缩估计器(解释变量)作为预测工具,例如,从微生物群组预测重量。
基于回归的时间序列模型:动态微生物群可以通过基于回归的时间序列模型进行分析,即将类群的相对丰度、肠道微生物区系随时间的生态多样性作为一系列观测(因变量),将时间的函数和其他协变量作为自变量。例如,我们可以使用回归来评估人类阴道微生物群对月经周期中的时间和其他协变量,一种自回归(AR)模型,以评估不同细菌分类群体的趋势;以及处理微生物菌群计数的无限混合模型。①Time-Series Clustering Method,时间序列聚类法是根据OTU的时间剖面相似性将其分组在一起的方法。它采用假设的OTU水平分析的方法,而不是平均OTUS。例如,MC-TIMME(微生物组计数轨迹无限混合引擎)是由Gerber(2015)和Gerber等人开发的时间序列聚类算法。非参数贝叶斯技术被调整为从微生物组数据自动推断时间模式,然后将数据集中的OTU分配给所推断的时间模式。②Dynamical Systems Theory Model,已有几种微生物时间序列的自回归模型被提出。最流行的是Lotka-Volterra(LV)模型。Stein将动力系统模型应用于微生物组时间序列数据。该模型基于广义Lotka-Volterra(GLV)非线性微分方程,假设生态系统中物种的生长是密度受限的,并受到系统中其他物种的正或负调控。自回归模型还通过使用GLV方程分析了OTUS相对丰度的动态。③Time-Dependent Generalized Additive Models,另一种动力系统理论模型是依赖于时间的广义加性模型(GAMS)。GAMS的框架是非参数的,通常更适合在系统先验信息很少的情况下使用。GAMS已被广泛应用于生态时间序列数据的分析。为了捕捉人类婴儿肠道微生物区系的动态,Trosvik应用GAMS分析微生物区系时间序列数据。④Non-autoregressive Microbial Time Series Model,Gibbons及其同事认为,人体肠道微生物群有两种动态机制:外部环境波动和内部过程。外部环境波动是非自回归的,由外部因素(如饮食)驱动。换句话说,大多数生物体的功能是一种稳定的、均值回归的行为,在个体之间承载着固定的能力和丰富的类群。当系统从较大的冲击中恢复时,偶尔会发生自回归动态。然而,外部的非自回归波动决定了人体肠道微生物群落的动态。微生物群是一个动态稳定的系统,不断受到内力和外力的冲击,尽管肠道生态系统经常被破坏,将微生物群推回到保守的稳定状态。吉本斯和他的同事们肠道微生物时间序列中的非自回归方法,而不是关注自回归模型。他们使用向量自回归模型分别对自回归和非自回归分量进行建模。VaR模型灵活易用,适用于平稳多变量时间序列的分析。该模型假设时间序列过程具有自相关、互相关和序列不相关或独立噪声。此外,他们使用连续的方法来表征宿主内部的动态,而不是采用社区状态聚类法。综上所述,时间序列方法在近几年得到了越来越多的应用。这些方法特别需要用适当的分析工具仔细设计和分析。否则,结果可能极具误导性。首先,我们不能忽视微生物组数据的时间性这一因素。例如,我们不能将时间序列数据视为静态时间点,并通过简单的统计过程(如t检验)对其进行检验。我们不能将时间点作为独立样本对待,这可能会高估不同组之间的差异。第二,我们不能平均混合种群的丰度,特别是在基于序列的微生物组数据分析中不能平均这些丰度。例如,我们不能将两个种群动态相反的OTU或物种组合在一起或聚集在一起。如果您聚合OTU或物种,从而获得错误的微生物群谱,时间信息可能会丢失。
因果关系检测:微生物组数据的因果推断与中介分析:首先,微生物群可能对寄主有致病作用。人类和动物研究都证明了以下因素:(1)对野生型小鼠的研究和斑马鱼。(2)微生物群在宿主免疫系统的成熟,甚至在肠道的解剖发育中发挥了作用;(2)微生物区系在宿主免疫系统的成熟,甚至在肠道的解剖发育中发挥了作用;(2)微生物区系在宿主免疫系统的成熟,甚至肠道的解剖发育中发挥了作用。其次,肠道微生物区系的细菌组成(种类、成员和丰度)是个性化的。大多数微生物群在不同的寄主物种之间有着惊人的差异。在生命周期中,我们的微生物群会随身体栖息地和时间的不同而发生系统的变化,可以短暂地或长期地被疾病(如感染)所改变或医疗干预,如抗生素。这样的趋势可能最终揭示微生物群的变化是如何引起或预防疾病的。减少的物种在肥胖人群中观察到了多样性;大肠癌患者结肠中梭菌门的丰度显著增加。因此,微生物组领域的研究人员不仅需要了解细菌在人类疾病中的相关性,还需要了解细菌在人类疾病中的致病功能。第三,微生物群与寄主之间的相互关系提出了因果推断模型,或者可以进行中介分析和纵向分析。目前,微生物组研究人员将他们的重点从相关性转移到因果关系。然而,由于微生物组数据和统计模型的复杂性,在微生物组研究中识别原因仍然很少见。我们应该区分因果关系和相关性,不能从两个变量之间的关系直接推断因果关系,因为“相关性既不是建立因果关系的必要条件,也不是充分条件”。中介分析为研究人员提供了一个关于导致某事的一系列效应的故事。它使我们能够进行科学调查来解释某事是如何发生的。检测微生物群、干预和宿主之间的动态因果关系是非常关键的。然而,据我们所知,因果推理和中介分析的应用有限。
微生物组数据的荟萃分析:由于异质性,类似的微生物组研究经常被报道效果不一致。荟萃分析旨在减少研究偏差,确保稳健的结果,增加统计能力,并改善对研究效果的整体生物学理解,例如在类似实验条件或治疗下的临床试验。微生物组研究的荟萃分析是为了在不同的条件或处理上检验相似的基本假设,如IBD和肥胖。目前,基于网络的统计工具和R软件包可用于微生物组数据的荟萃分析。例如,基于网络的工具“MicrobiomeAnalyst”具有荟萃分析功能。R软件包“metammicrobiomeR”旨在使用随机效应模型在微生物组研究中进行荟萃分析。微生物组相对丰度数据的分析方法是基于零膨胀的beta GAMLSS(位置、规模和形状的广义加法模型):GAMLSS-BEZI。它使用GAMLSS-BEZI估计组间相对丰度的对数(优势比),使用随机和固定效应荟萃分析模型汇集估计及其标准误差,以评估微生物组研究的异质性和整体影响。荟萃分析可以使用不同的算法或方法来实现,例如组合来自多个研究的p值、效果大小、排名顺序、投票,或者直接将不同的原始数据集合并成巨型数据集,然后将其视为单个数据集。投票法是最简单的荟萃分析方法。它首先根据每个数据集的特定标准(例如,调整p<0.05)选择差异表达的基因或丰富的分类群;然后统计在所有数据集中检测到的差异表达的基因或丰富的分类群的总数。除非其他方法行不通,否则不应该使用投票方法,因为它被认为在统计上效率不高。直接合并不同原始数据集的方法通常应该将其应用限制在相同或相似的平台上,因为它忽略了来自不同来源的数据集的固有偏见和异构性。与其他研究领域的研究相比,由于单个数据质量和单个数据集固有的异构性问题较大,对微生物组数据进行严格的统计荟萃分析具有更大的挑战性。在设计和执行微生物组数据的荟萃分析时,我们应该遵循荟萃分析的指导方针。严格的统计荟萃分析应该使用适当的基础统计方法和固定效应模型或随机效应模型来比较集合数据集上的各组,此外还应考虑个体数据质量和个体数据集的固有异质性。基于这一标准,目前大多数微生物组数据的荟萃分析并不像统计荟萃分析那样严谨。目前,大多数微生物组数据的荟萃分析直接将不同的原始数据集合并成一个巨型数据集,然后使用常用的方法如α分集、主坐标分析(PCoA)对合并后的数据集进行分析。其他研究独立地对每个数据集的分类群相对丰度进行单变量检验,并使用统计方法(即Kruskal-Wallis检验)来比较各研究的结果,并用校正方法(即Benjamini-Hochberg错误发现率(FDR))调整p值。目前“微生物分析仪”的荟萃分析功能主要集中在可视化探索或富集分析上。“微生物分析仪”工具缺乏适当的统计方法进行群体比较。因此,这不是严格的统计荟萃分析。从使用统计方法和模型来检查跨研究的总体汇集效应的角度来看,MetammicrobiomeR包中的方法是严格的统计荟萃分析。基于一项模拟研究,该软件包的作者陈述了它的三个优点:第一,GAMLSS-BEZI通过零膨胀的贝塔分布直接和适当地处理微生物组相对丰度数据的分布;第二,它在检测组间微分相对丰度方面比使用反正方根变换的线性模型具有更好的能力。第三,不同群体之间相对丰度的估计对数(优势比)在不同研究之间是直接可比的。
3.6 统计包简介
生物信息学流程和R包在开发用于假设检验和统计分析的统计方法和模型方面起着非常重要的作用。
生物信息学流程:QIIME和mothur是两条流行的生物信息学流程。QIIME和MOTHUR的能力是全面和支持性的文档,可以用来生成微生物组组成数据,也可以用来分析16SrRNA基因测序数据。QIIME和MOTHUR可以执行微生物组组成和统计分析,包括α和β多样性、单因素方差分析、配对和两个样本t检验、Adonis、ANOSIM、MRPP、PERMANOVA、PERMDISP、db-RDA和Mantel检验。
R Packages Adopted from Other Fields:在微生物群研究中,研究者和统计学家使用现有的标准方法和模型或借用其他相关领域的统计工具来应用于他们的研究,特别是在早期阶段。Vegan是一种非常重要和使用最广泛的R包,最初是为社区生态学家设计的。Vegan不是自给自足的。它依赖于许多其他R包,并且必须在R统计环境下运行。然而,Vegan包含了最流行的多变量分析方法和多样性分析工具,以及其他可能有用的功能。因此,它被广泛应用于生态群落分析,并已被应用于微生物群数据的分析。使用Vegan包来计算多样性和其他指标。.DESeq,DESeq2,Edger最初是为分析数字基因表达数据和基因表达系列分析(SAGE)而开发的。它们对于过度分散的计数数据的假设检验和统计分析很有用。DESeq和DESeq2都使用负二项分布来测试差异表达;Edger Package实现了Robinson和Smyth,Robinson等人描述的原始统计方法。采用它们来分析过度分散的微生物群计数数据。LIMMA软件包最初是为了检测物种的差异丰度而开发的。
新发展的微生物组数据R软件包:一些R软件包是专门为微生物组数据开发的。近年来,微生物组研究人员和统计学家沿着提出的统计方法开发了更多的R包。这些软件包有其特定的进行假设检验和统计分析的能力。将介绍并实现几个R包。HMP和micropower 是用于进行功率和样本量计算的两个R软件包。在新开发的R软件包中,phyloseq软件包是更通用的统计工具。首先,它集成了其他可用的统计软件包来执行统计假设检验和分析。例如,它与DESeq、DESeq2、Edger软件包集成或扩展到DESeq、DESeq2、Edger软件包,以便于分类学多样性分析和统计建模。它还包含R中基于微阵列的微生物组概况数据集分析的通用工具。第二,phyloseq软件包配备了管理微生物组数据集的工具。例如,它具有从其他软件包导入和导出数据的能力,甚至可以从生物信息管道(如QIIME和MOTHUR)导入和导出数据。第三,Phyloseq具有执行各种分集度量分析的能力。例如,在将数据导入R之后,可以使用40多个不同生态距离度量中的任何一个或全部轻松地执行β多样性分析;实施阿尔法多样性度量;执行更复杂的分析,例如k表分析和微生物组数据的差异分析。最后,phyloseq软件包具有通过柱状图、盒图、密度图、热图、运动图和网络以及排序和聚类来可视化微生物组数据的功能和工具。微生物组包根据Phyloseq级进行统计分析。它包含基于微阵列的R微生物群谱数据集分析的通用工具。它为微生物群数据集增加了额外的功能,以执行微生物区系组成分析、双稳性分析、计算多样性指数并通过配对比较和关联研究拟合线性模型。作为phyloseq软件包,微生物组软件包具有通过柱状图、框图、密度图、热图、运动图、网络、排序和聚类来可视化微生物组数据的功能和工具。MetagenomeSeq是实现零膨胀高斯(ZIG)的混合模型。MetagenomeSeq包括关于t统计量的非参数置换检验、非参数Kruskal-Wallis检验。MAO等人提出的实现贝叶斯图形成分回归(BGCR)的R代码。可在https://github.com/MaStatLab/bgcr免费获得。MBVS软件包实现了Lee等人提出的多元零膨胀高维协变量的贝叶斯变量选择方法。ANCOM软件包实现了对微生物群组成的分析。ALDEx和ALDEx2软件包实现了比较微生物组组成的方法。在第10章中,我们使用真实的微生物组数据运行ALDEx2。BhGLM包实现了NBMMS和ZINB两种方法。ZIBR软件包实现了具有随机效应的两部分零膨胀Beta回归模型。我们在第12章中举例说明了它的用法。MicrobiomeDDA实现了基于ZINB(零膨胀负二项)回归模型的微生物组数据差异分布分析的一般框架。MetammicrobiomeR使用零膨胀的Beta GAMLSS和使用随机和固定效应模型的跨研究荟萃分析,实现了对微生物组相对丰度数据的分析。
3.7 现存统计方法的局限性和将来的发展方向
本章全面回顾了目前可用于或已经用于微生物组数据分析的统计方法和模型。统计方法和模型的目的是针对微生物组数据的特定特征,无论是横截面还是纵向设置。这些方法将微生物组数据视为相对丰度,使用原始数据作为输入数据集,或基于系统发育树的数据结构进行分析。经典的统计方法仍然被广泛使用,而新的方法在过去的几年里得到了发展。新开发的方法大多针对微生物组数据的一个或多个特定特征:高维、过度离散、零点过多的稀疏性和复杂的协方差结构。然而,现有的统计方法仍有其局限性,包括:(A)在检测因果关系和因果推断方面,调解分析仍处于初级阶段。近年来,微生物群研究的重点已从相关性转向因果关系。在生态学中,已经讨论了如何识别因果关系,并提出了在复杂生态系统中识别因果关系的框架。然而,在微生物组研究中,合适的纵向和因果推断模型非常有限。为了满足对动态复杂的微生物组数据建模的需要,仍然需要合适的统计工具来分析假设因素之间的因果关系和中介关系。(B)一些研究在使用经典统计方法分析微生物组比例数据时,完全忽略了微生物组数据的约束问题或组成性质。例如,皮尔逊相关分析、t-检验和方差分析仍然被广泛用于微生物组数据的分析,而不需要检验数据的分布或转换。(C)目前成分数据分析没有解决零值问题。微生物组分数据的分析主要集中在两个方面:用对数比来避免约束问题,用比例来代替相关性来解决“伪相关”问题。这两种方法都依赖于对数比变换。通常,将一个较小的值加到零读取计数以使对数比转换可定义。但是,添加小值的算法不被允许。此外,人为的值是否会改变结果也很难检验。(D)基于计数的方法仍然需要提高联合建模过度分散和零通货膨胀的能力。建议将微生物组数据视为计数数据,而不是成分数据。基于计数的模型针对微生物组的多变量高维数据结构、稀疏性、过度分散性和零膨胀等特点,具有很好的概念调整能力,因此被认为是更适合于微生物组数据的统计和生物学模型。近年来,在横截面或纵向设置中已经开发了几种基于计数的模型。然而,一些方法将细菌类群视为独立的,忽略了细菌类群之间的相关性;一些方法虽然联合建模多个细菌类群,但在处理过度分散和/或零膨胀方面的能力有限。(E)系统发育树的方法似乎另有希望,因为与成分和基于计数的方法相比,它们考虑了多个级别的分类群。然而,不同级别的细菌类群之间的进化比其他领域(即生态学)更为复杂。我们仍然缺乏适当的方法或模型来联合拟合多个水平的分类群,并考虑到微生物组数据的特点,如过度分散和/或零膨胀。
近年来,,微生物组数据的统计分析取得了很大的进展,针对横断面和纵向环境中微生物组数据的具体特征的方法和模型证明了这一点。在选择标准统计方法、借鉴其他领域的统计方法、发展自己独特的统计方法等方面都取得了进展。一些新发展的统计方法和模型对于微生物组数据是可行的和很好的拟合。然而,微生物群研究中的统计方法和模型仍有发展的空间。作为一般指导方针,新统计方法的重点可以放在以下几个方面:(A)开发纵向和因果模型,使更准确的因果推断能够适应微生物群、环境和宿主之间的动态和复杂联系。预期的模型应该有强大的统计工具来将微生物群的变化与宿主因素(即健康或疾病)联系起来,并有能力调整混杂因素,以建立与反应变量的时间甚至因果关系。(B)继续开发适当的模型,以共同拟合和有效地解释具有多变量高维数据结构、过度分散和具有过多零点的稀疏性的微生物组数据的特点,包括荟萃分析的统计工具。(C)考虑到微生物组数据的组成性质,并将微生物组数据拟合为组成数据,同时解决了多变量高维数据结构、过度分散和带有多余零点的稀疏性的特点。(D)讨论并提出在系统发育树框架下研究细菌分类群进化的统计模型。