ConnSearch:如何对有限样本量进行功能连接分析?
摘要
功能连接研究越来越多地转向机器学习方法,这些方法通常涉及拟合全连接组网络的分类器,然后进行事后解释分析,以确定最能预测因变量的神经相关因素。然而,这种传统的分析范式存在两个主要限制。首先,即使分类器完全准确,解释分析也可能无法识别因变量表示的所有模式。其次,即使分类器具有泛化性,通过解释分析得出的模式也可能无法复制。换句话说,这种传统方法可以生成有效的分类器,但难以实现大多数神经科学家的目标:精确定位因变量的神经相关性。本研究提出了一种新的多变量分析框架ConnSearch,它涉及将连接组划分为组件(例如,高度连接区域组),并为每个组件拟合一个独立的模型(例如,支持向量机或基于相关性的模型)。关于因变量和大脑之间联系的结论是基于哪些组件产生了预测模型,而不是基于解释分析。本研究使用来自人类连接组项目(N=50-250)的工作记忆数据,将ConnSearch与四种现有的全连接组分类/解释方法进行比较。对于每种方法,模型都试图将示例分类为来自高负荷或低负荷条件。相对于传统方法,ConnSearch识别的神经相关性更全面,与工作记忆(WM)文献具有更大的一致性,并且跨数据集的复制效果更好。因此,ConnSearch是进行功能连接研究的一种有效工具。
前言
在功能连接研究中,使用机器学习进行多变量分析已变得越来越常见。传统的机器学习分析范式涉及以下步骤:(a)拟合一个全连接组分类器来预测因变量,然后(b)应用事后解释工具以识别最能预测因变量的特征。传统范式被广泛使用,可以生成准确的模型。然而,目前的研究提出了这样一个问题,即将机器学习应用于大脑研究是否是最有效的方法,特别是对于任务态功能磁共振成像(task-fMRI)研究来说。毋庸置疑,分类器通常具有很高的预测能力,并且解释分析通常能够成功地解释驱动预测的因素。但本研究重点考察传统范式是否适用于大多数神经科学研究更基本目标,即识别对任务操纵敏感的网络、连接和区域。因而提出了关于传统范式的新问题,并提供了一种在认知神经科学研究中具有广泛用途的新工具。
本研究认为传统范式面临着两个关键限制,限制了其在大多数神经科学研究中的有效性。首先,通过传统范式生成的解释可能并不全面,因为解释分析可能只找到由因变量表达的神经相关性的一个子集。其次,解释可能并不稳定,因为通过解释分析识别的神经关联可能无法在不同研究中复制。基于此,本研究提出了一个用于功能连接数据多变量分析的新框架。该框架旨在用于任务态功能磁共振成像研究中,目标是确定操作对大脑的影响。换言之,本研究的目的是测试一种用于fMRI数据分析的新框架(ConnSearch,Connectome Searchlight)的有效性。
类似于探照灯多变量模式分析(MVPA)如何在每个体素周围定义一个球体,ConnSearch在每个ROI周围定义一个网络组件。一种方法是将每个ROI视为“核心/种子”,并将其与其连接最紧密的ROIs进行分组。这会产生大量跨越连接组的重叠组件(图1A)。然后,ConnSearch独立地对每个组件的数据进行建模,以识别对因变量有显著预测作用的组件。组件分析可以通过多种方式进行,就像探照灯MVPA可用于组水平和特定于个体的分析一样。对于每个组件,可以使用一组参与者的数据训练分类器,然后使用其他参与者的数据测试分类器的准确性(组水平分析;图1B)。或者,对于每个组件,在独立建模每个参与者的数据时评估其拟合度,其中模型使用参与者在一个会话中的数据来预测另一个会话中的数据(特定于个体分析;图1C)。在这两种情况下,通过检查哪些组件产生了统计显著性模型,可以得出连接组的哪些部分对因变量敏感。
图1.ConnSearch示意图。
为了评估ConnSearch在神经成像研究中的适用性并将其与现有的技术进行比较,本研究分析了来自人类连接组项目(HCP)的工作记忆(WM)任务态fMRI数据。之所以选择这项任务,是因为WM依赖于涉及多个脑网络的分布式过程,而且WM是认知研究最多的方面之一,因此有大量的文献可以与ConnSearch结果进行比较。HCP WM任务具有block设计,是N-back范式的变体:参与者完成了两个阶段的任务,每个阶段包括八个N-back block(每个27.5s)。2-back(高负荷)4个,0-back(低负荷)4个。为了将此数据集构建为一个二元分类问题,每个参与者的数据被组织成示例,这样每个参与者产生两个2-back示例和两个0-back示例。任务条件被用作监督学习模型的二分类标签。为了评估ConnSearch作为通用框架的效用,本研究执行了一系列分析,测试了它用于组水平和特定于个体的建模。本研究重点关注其结果的全面性和稳健性。
方法
数据和预处理
对来自S1200 HCP数据集的WM任务数据(57%为女性;M=28.7岁[22-37];11%为左利手)进行了分析。分析使用了该数据集的三个组织方式:(1)50名参与者的样本,以评估ConnSearch在数据有限情况下的可行性;(2)250名参与者的样本,要么进行整体分析,要么分成五个50名受试者组,以研究可重复性;(3)对45名参与者进行重测,用于可靠性分析。最终样本构成了完整的HCP重测数据集,该数据集由完成两次完整WM协议(总共四个session)的所有参与者组成。在每个数据集上,N-back性能总体较高:对于2-back条件,平均准确率为84.4%(SD=9.4%),对于0-back条件,平均准确率为89.9%(SD=10.8%)。在用于可重复性分析的五个50名受试者组中,两两组之间在2-back或0-back准确性方面没有显著差异(ps≥0.12);使用Wilcoxon秩和检验,因为数据呈左偏态分布。
进一步预处理
在分析之前,使用连通性工具箱(CONN)对fMRI数据进行进一步预处理。使用线性回归进行去噪,并通过包含以下时间协变量来去除生理和其他噪声源:首先,使用在CONN中实施的解剖学CompCor方法,基于分割期间得出的白质和脑脊液掩膜创建每个参与者的噪声ROI。对于每个ROI,将表示其信号的五个主成分作为时间协变量添加到去噪回归模型中。其次,添加了12个运动参数(3个旋转、3个平移和一阶时间导数)。第三,还添加了有限脉冲响应(FIR)协变量,以确保分析目标是功能连接而不是共激活。总共添加了112个FIR协变量,覆盖了每个block的长度(38个体积)加上额外的18个体积,以解释HRF的可能持续时间。每个条件都使用单独的协变量,因此112=(38+18)×2。最后,对于每个参与者,包括可变数量的回归量,以解释“异常值体积”。使用伪影检测工具(Artifact Detection Tools ,www.nitrc.org/projects/_artifact_detect/)进行识别,即扫描在复合运动(平移和旋转位移的组合)中超过0.5mm和/或显示激活高于或低于全局平均信号3个标准差的体积被视为异常。对于每个异常值体积,添加一个“scrubbing”协变量,其中异常值体积对应的协变量值为1,其他体积对应的协变量值为0。回归之后执行高通滤波(>0.01Hz)以去除低频干扰,同时保留与任务相关的变化。
预处理后,使用从ROI中提取的时间序列之间的HRF加权Pearson相关性计算ROI-to-ROI的连接强度。为了确保无论使用何种图谱,ConnSearch都是有效的,使用Power等人(2011)的264-ROI图谱和Schaefer等人(2018)的1000-ROI图谱的变体计算连接矩阵。Power等人(2011)图谱将整个大脑划分为264个区域,这些区域是根据静息态和任务态数据建立的。Power等人(2011)图谱用于分析50名参与者的数据集和45名参与者的重测数据集。Schaefer等人(2018)图谱指定了1000个ROIs,并基于静息态数据开发。该图谱用于250名参与者数据集的分析,其中ROI密度的增加以及更大的样本量允许对组件数据进行细粒度建模并精确定位任务的效果。
ConnSearch方法
示例根据其所属的任务条件被标记为2-back或0-back。任务条件被用作模型试图预测的二元标签(Y)。每个参与者完成两个条件两次,因此每个标签生成两个示例。每个示例都与一个功能连接组矩阵(XM×M)相关联,其中M为264或1000,具体取决于测试的图谱。ConnSearch基于M个ROI定义了M个重叠的网络组件。每个网络组件(Cm)是N个ROI的集合,定义为ROI m和与ROI m连接最强的N-1个ROI。每个网络组件被用来从每个示例的连接组矩阵中提取一个N×N矩阵(XCmCm)。
每个组件的数据都被提交给独立的模型,即每个组件拟合一个模型,如组件0对应一个模型,组件1对应另一个模型,依此类推。建模属于两个不同的模式之一,包括组水平建模和特定于个体的建模。(1)对于组水平建模,对M个支持向量机(SVM)进行训练/测试。每个SVM基于给定组件(XCmCm)的数据预测标签(Y)。组水平的ConnSearch旨在识别哪些组件产生了显著的分类器。对于每个分类器,基于置换检验定义统计显著性所需的准确度阈值。(2)对于特定于个体的建模,采用关联相似性来检验个体特异性效应。对于给定的参与者,关联相似性取决于该参与者相同标签的两个示例之间的相关性减去相反标签示例之间的相关性。分别对每个组件应用此分析,为每个参与者生成每个组件的M个关联相似性测量值。特定于个体的ConnSearch旨在识别在大多数参与者中显示正向关联相似性的组件。对于每个组件,通过提交每个参与者的值进行单样本t检验来评估关联相似性的显著性。
在提取连接组矩阵之后,将ROI组织成部分重叠的集合,这里称之为“网络组件”。为图谱的每个ROI定义一个网络组件。每个ROI的网络组件包括ROI本身(“核心ROI”)和N-1个与其最强连接的其他ROIs(图2)。连接强度被评估为两种条件和所有参与者的平均连接矩阵。基于强连接的组件定义来自网络研究,该研究根据节点之间的强连接定义节点社区。尽管该策略将排除对弱连接的分析,从而可能会忽略一些神经相关性,但通过调整组件的定义方式,仍然可以纳入这些连接。
图2.定义重叠组件的过程。
结果
有限样本量组水平ConnSearch本研究的目标是开发一种对任务效应敏感且能够提供全面视角的工具。即使在有限的样本量(N=50)下,组水平ConnSearch也能够识别出十个显著的网络组件。这些组件涵盖了典型的静息态网络,并提供了有关工作记忆负荷效应的多方面研究(图3和表1)。例如,两个显著组件主要由顶叶和枕叶ROIs组成,它们与视觉和注意加工网络相关(Entries #1和#2)。也有与前额叶ROIs和高阶网络有关的组件,例如FPCN和DMN(例如,Entries #4和#10)。最后,一些组件跨越视觉/注意力和额叶区域(例如,Entries #8和#9),揭示了这些过程之间的协作。为了保证结果的稳健性,该分析还使用24和32-sized的组件进行验证,得到了类似地形的显著结果。总体而言,这些发现表明,即使(1)样本量有限,(2)分类器仅使用连接组的一小部分,不到所有边缘的0.4%,以及(3)采用严格阈值来校正多重假设的情况下,ConnSearch仍然可以产生显著的结果。
表1.由组水平ConnSearch识别的显著网络组件。
与全连接组解释方法的比较
测试其他方法发现,其他方法在识别引起WM负荷的神经相关广度方面不如ConnSearch全面。对于此分析,本研究使用了与上述相同的50名参与者数据集,并首次证实了SVM和岭回归是成功的分类器。事实上,两者的准确度都很高(超过80%)。然后,对四种事后解释方法进行检验,并得到了大致相似的结果:每种方法都与视觉网络和背侧注意网络(DAN)的边密切相关,这些边与后部ROIs相关联(图4)。然而,其他方法在识别这些网络之外的模式方面更为有限。从统计学上讲,只有与视觉网络和DAN相关的边被认为在频率上最具预测性。这与ConnSearch形成鲜明对比,ConnSearch不仅描绘了后部组件,还描绘了包括额叶ROIs的FPCN-FPCN,FPCN-DMN和DMN-DMN组件。这些结果为关于ConnSearch全面性的假设提供了证据,即更全面地捕获因变量的影响。接下来,将使用更大的数据集进一步比较这些不同的范式。
图4.四种全连接组分类和特征选择方法的结果。
大样本量组水平ConnSearch
使用由Schaefer等人(2018)的图谱对更大的数据集(N=250)进行分析,可以使ConnSearch精确地绘制由WM负荷引发的连接模式的地形图(图5)。这种精确性在两个显著模式中得到了体现。首先,在大脑后部皮层中,对250名参与者的分析显示出两个团簇:一个是早期视觉团簇,一个是后顶叶团簇,可能分别反映了可分离的视觉和注意加工。其次,在前额叶皮层(PFC)中,出现了背外侧PFC团簇并呈现出前后梯度,这可能反映了加工的分层组织。在对有限数据集的分析中,这些特定模式均未出现。因此,在更大的样本量下,ConnSearch对WM负荷效应的定位程度更加精确。虽然不能肯定这些发现是“正确的”,因为“真值”是未知的,但结果与现有的WM研究一致。值得注意的是,通常被认为参与WM较少的网络和区域,例如边缘网络或眶额叶皮层,仍然未能被识别出来,这表明ConnSearch不会产生假阳性结果。
图5.大样本量下的网络组件精度。
与全连接组解释方法的比较使用更大的数据集与现有方法进行比较进一步证明,ConnSearch的结果更全面地反映了由WM负荷引发的模式。例如,通过ConnSearch识别的枕叶与顶叶分离在全连接组分类/解释方法的结果中不太明显(图6)。此外,ConnSearch还发现了特定的PFC效应,主要涉及外侧PFC的后部区域。另一方面,递归特征消除未显示出明确的额叶参与,而另外两种技术主要涉及PFC的内侧和相对前部区域。如上所述,我们没有关于哪个区域更相关的“真值”,但对WM引发的BOLD激活的元分析通常显示,外侧和后部PFC效应比内侧和前部PFC效应更突出。总体而言,这些结果补充了使用较小数据集得出的初步发现,并进一步证明了ConnSearch比其他方法更精确和全面地定位了任务操作的神经相关性。
图6.不同方法在大型数据集上应用结果。
特定于个体的ConnSearch除了组水平分析之外,ConnSearch组件还可以以其他方式进行建模。特定于个体的ConnSearch使用关联相似性(而不是分类)对每个组件的数据进行建模。该分析试图识别由给定参与者第一个会话中的条件引起的连接模式来预测其在第二个会话中的连接模式。正如预期的那样,特定于个体的ConnSearch在使用有限数据集(N=50;图7顶部)时发现了几个对WM负荷敏感的重要网络组件。例如,与组水平分析相关的FPCN也可以通过特定于个体的分析来识别。另一方面,一些网络显示出明显的组水平效应,但没有显示出主要的特定于个体的模式(例如,视觉网络和DMN),这表明这些网络的任务相关反应在整个人群中更加同质。这种网络之间的解离突出了特定于个体的分析如何提供独特的见解来补充组水平分析,以及ConnSearch是如何定位这些效应的。为此,在去除组水平效应后,本研究还执行了特定于个体的ConnSearch,即逐边减去每个条件的组均值。三个组件仍然显著(Entries #1、#6、#7),这意味着至少对于这三个组件,WM负荷引发了每个参与者独有的连接配置。
图7.由特定于个体的ConnSearch识别的显著网络组件。
进一步的分析增加了FPCN结果的稳健性。例如,当使用24或32-sized的组件进行测试时,也会出现类似的结果。使用Schaefer等人(2018)的图谱进行分析,也显示了FPCN模式,并且具有更高的精度(图7底部)。此外,对可重复性的分析表明,使用50名参与者发现的模式在多个数据集上的收敛程度高于偶然预期。总体而言,这些结果表明,任务操作会引发每个参与者独有的连接效应,这些效应超越了组水平模式。此外,ConnSearch是将这些效应定位到连接组特定区域的有效手段,这不仅显示了该框架的灵活性,而且是研究脑网络中的个体异质性的潜在工具。
结论
本研究提出了一种适用于功能连接分析的新框架,称为“ConnSearch”。该研究有四个主要发现。关于组水平分析,首先,即使样本量有限(N=50),ConnSearch在任务态fMRI研究中也是可行的。其次,与已测试的四种现有分类和解释方法相比,ConnSearch确定了更广泛和详细的神经相关性。第三,与传统方法相比,ConnSearch使用更可靠的数据,并产生更具可复制性的结果。最后,关于特定于个体的分析,ConnSearch可以识别表达被试特定性(异质性)效应的网络组件。总体而言,本研究为ConnSearch作为组水平和特定于个体功能连接分析的新框架提供了证据。为了支持未来此类研究的探索以及认知神经科学家对机器学习方法的采用,目前所有代码都公开提供了详细的文档和说明。
原文:Paul Bogdan, Alexandru D. Iordan, Jonathan Shobrook, Florin Dolcos, ConnSearch: A Framework for Functional Connectivity Analysis Designed for Interpretability and Effectiveness at Limited Sample Sizes, NeuroImage (2023), doi: https://doi.org/10.1016/j.neuroimage.2023.120274
茗创科技专注于脑科学数据处理,欢迎关注公众号,有任何相关的疑问和咨询,可添加我们的工程师(MCKJ-zhouyi或17373158786)进行咨询~
快来扫码关注吧.jpg