医学相关单细胞测序单细胞、空间、多组学文献思路

10X单细胞(10X空间转录组)转录组 & VDJ 联合分析(1

2021-11-12  本文已影响0人  单细胞空间交响乐

hello,大家好,又是周五,一周的收官之战,今天我们需要复习一下CoNGA,实在是太重要了,我们今天也要详细复习一下,关于10X单细胞和10XVDJ的联合分析的分享文章,我都列在这里,供大家参考和借鉴

10X单细胞(10X空间转录组)TCR数据分析之TCRdist(1)

10X单细胞(10X空间转录组)TCR数据分析之TCRdist(2)

10X单细胞(10X空间转录组)TCR数据分析之TCRdist(3)

10X单细胞(10X空间转录组)TCR数据分析之TCRdist3(4)

10X单细胞(10X空间转录组)TCR数据分析之TCRdist3(5)

10X单细胞(10X空间转录组)TCR转录组联合数据分析之TCRdist3(6)neighbor graph analysis(CoNGA)

10X单细胞(10X空间转录组)TCR转录组联合数据分析之TCRdist3(7)neighbor graph analysis(CoNGA)

10X单细胞(10X空间转录组)TCR转录组联合数据分析之(8)neighbor graph analysis(CoNGA)

10X单细胞(10X空间转录组)BCR(TCR)数据分析之(9)changeo

10X单细胞(10X空间转录组)BCR(TCR)数据分析之(10)changeo

10X单细胞(10X空间转录组)BCR(TCR)数据分析之(11)dandelion

10X单细胞 & 10XVDJ 联合分析之PlatypusDB

10X单细胞(10X空间转录组)转录组 + VDJ联合分析(12)之scirpy

10X单细胞(10X空间转录组)转录组 + VDJ联合分析(13)之基础术语

10X单细胞(10X空间转录组)转录组 & VDJ 联合分析(14)之CoNGA

10X单细胞和10XVDJ的联合分析实在是太重要了,文章在Integrating T cell receptor sequences and transcriptional profiles by clonotype neighbor graph analysis (CoNGA),IF54分,太重要了,重要是的事情不止要说三遍,我们今天要详细回顾于一下。

图片.png
图片.png

Abstract

  由 T 细胞受体 (TCR) 序列定义的 T 细胞克隆型和表型(表型就指表达谱)之间的联系,反映在基因表达 (GEX) 谱、表面蛋白表达和肽:主要组织相容性复合体结合中,可以揭示功能关系beyond the features shared by clonally related cells。 在这里,作者提出了克隆型邻居图分析 (CoNGA),这是一种图论方法,通过对 GEX 和 TCR 相似图的统计分析来识别 GEX profile和 TCR 序列之间的相关性。 使用 CoNGA,发现了 TCR 序列和 GEX 谱之间的关联,其中包括以前未描述的人类循环 CD8+ T 细胞的“天然淋巴细胞”群和一组胸腺细胞分化的 TCR 序列决定因素。 这些例子表明,CoNGA 可能有助于阐明大型、异质、单细胞数据集中的 TCR 序列和 T 细胞表型之间的复杂关系。

Intoduction

  先前配对 GEX 和 TCR 序列的研究集中在 TCR 序列作为识别克隆相关细胞的独特“Barcode”上。这种方法产生了对癌症、传染病和体内平衡背景下不同 T 细胞亚群的发展和相互关联的见解。这项研究表明,源自共同克隆祖先的 T 细胞克隆倾向于表达相似的转录谱。然而,大型单细胞测序数据集的可用性提供了丰富的数据pool来揭示 TCR 序列相似性和细胞表型之间的关系。研究人员已经绘制了先前确定的 T 细胞亚群的 TCR 序列特性,但尚未研究指出可以通过关联 GEX 和 TCR 序列来识别先前未知的群体或亚群的系统方法。还缺乏用于识别 TCR 序列和 GEX 之间相关性的方法,这些相关性不会扩展到全局相似性或与定义的细胞群相关(例如,特定 TCR 序列特性与可能跨越多个细胞子集的表达基因之间的相关性)。
  在单细胞分析发展的同时,量化 TCR repertoire特征和识别其中模式的方法已经成熟,有助于扩展对 T 细胞生物学的理解。之前,作者介绍了 TCRdist(关于TCRdist,大家可以查阅我上面列举的文章),这是一种评估 TCR 间相似性的方法,能够根据共享序列特征识别密切相关的克隆型。基于这项工作和其他工作,很明显,靶向相同病原体衍生表位的 T 细胞使用具有一致、可定义氨基酸基序的 TCR。除了这些传统的 T 细胞反应外,某些非常规 T 细胞群,例如粘膜相关不变 T (MAIT) 细胞和不变自然杀伤 T (iNKT) 细胞,以保守的 TCR 序列特征和 GEX 谱为特征。已经描述了几个不同的 T 细胞亚群,它们具有适合其富集的标记,但由 TCR 和 GEX 连接的其他亚群很可能仍未被发现。假设,通过确定由共享序列特征定义的“TCR 邻域”和 GEX 之间的相关性,可以超越简单地测量单个克隆家族内的 GEX 变异,并可能确定 T 细胞抗原特异性和表型之间的关联。 (TCR和表型的关联分析,非常重要
  为此,作者开发了一种用于克隆型邻居图分析的图论方法,称为 CoNGA,它通过分析在一组 T 细胞克隆型上定义的相似性图来识别 GEX 谱和 TCR 序列特征之间的相关性。 CoNGA 在公开可用的 T 细胞数据集上的应用确定了 GEX:TCR 相关性的多个例子,包括 MAIT、iNKT 和表位特异性 T 细胞群;胸腺发育过程中 T 细胞命运的 TCR 序列决定因素;以前未描述的 ZNF683+IKZF2+(也称为 HOBIT+HELIOS+)CD8+T 细胞群,具有长且偏向的 CDR3 区域; EPHB6 基因表达与特定人类 TCR V 基因片段 TRBV30 的使用之间存在显着相关性。将 CoNGA 应用于包括肽主要组织相容性复合体 (pMHC) 结合谱的四个数据集,这些数据来源于细胞表面结合、DNA Barcode pMHC 多聚体的测序,揭示了 pMHC 结合与 TCR 序列和 GEX 之间的强相关性。随着多模式、单细胞数据集的规模和复杂性不断增长,诸如 CoNGA 之类的系统方法将在解卷积方面发挥关键作用。

Results

CoNGA graph-versus-graph analysis

  在graph-versus-graph相关性分析(下图)


图片.png

CoNGA defines a HOBIT+HELIOS+ T cell population

  接下来将 CoNGA 应用于外周血 CD8+ T 细胞的四个大型数据集,这些数据集经过分类以与 50 个 DNA barcode pMHC 多聚体中的至少一个阳性结合。 下面描述的 TCR:pMHC 结合分析确定了panel中许多 pMHC 多聚体的强表位特异性反应。 然而,对于几个多聚体,观察到显着水平的非特异性结合,for example, to MAIT cells

图片.png
图片.png
  因此,这些数据集还包括各种 T 细胞,其特异性超出了 pMHC 多聚体panel。 CoNGA 在这些数据集中检测到大量显着的 GEX:TCR 相关性,使用更严格的 0.1% 的数据集大小阈值识别出 62 个包含≥5 个克隆型的 CoNGA cluster和 42 个cluster。下图概述了 10x_200k_donor1 数据集中最大的 CoNGA clusters。进一步检查允许将下图中描绘的 CoNGA cluster分为三组:(1)流感 M158 响应克隆型; (2) MAIT 细胞; (3) 具有共享 GEX 谱(GEX cluster 2)、不同 TCR 基因使用和相当长的 CDR3 区域的克隆型群体。 GEX cluster 2 中的这些 CoNGA cluster显示转录因子 ZNF683(也称为 HOBIT)和 IKZF2(也称为 HELIOS)以及其他几种 NK 细胞相关受体,包括 KLRC2、KLRC3、几种 KIR 基因(用于例如,KIR2DL3) 和 NCR3(天然细胞毒性触发受体 3)。
图片.png

CoNGA identifies GEX:TCR correlation in thymic T cells.

  接下来将 CoNGA 应用于最近发表的人类胸腺 T 细胞的单细胞图谱。 该数据集结合了来自胚胎和胎儿阶段的胸腺组织以及来自儿童和成人的出生后胸腺,总共有 9,400 多个具有配对 TCRα 和 TCRβ 序列的克隆型。 CoNGA 在该数据集中发现了大量重要hit,主要在双阳性 (DP)、CD8 单阳性 (SP)、CD4 SP、Treg 和 CD8αα+ 胸腺群体中。 在 TCR 序列空间中,看到 TRAV41 cluster(该 TRAV 基因富含 DP 细胞)、TRAV1 和 TRAV12 cluster(富含 CD8 细胞)和 TRAV14 cluster(富含 CD8αα 细胞)中的concentration of hits(下图)

图片.png
  CoNGA 鉴定的 CD8+ cluster还显示出高 CD8 sequence scores and high scores,用于衡量纳入克隆型 TCRα 链的 TRAV 和 TRAJ 基因片段之间的基因组距离的测量值(‘alphadist’)。 DP CoNGA cluster显示出较低的 alphadist 分数,在基因座的 3' 末端偏爱 TRAV41 和其他 TRAV 基因,较长的 CDR3 loops(CDR3 长度已显示在胸腺选择期间减少)以及“边缘”和“边缘”的较高分数紊乱的氨基酸特性(以及较低的“强度”得分),这可能表明 CDR3 区域极性更大、体积更小、相互作用更弱,对 pMHC 的总体亲和力较低。与 Park 等人 的发现一致,两个 CD8αα cluster都显示出较低的 alphadist 分数;然而,CoNGA 进一步将高 iMHC 分数和更长的 CDR3 环确定为这些cluster的 TCR 特征。有趣的是,CD8αα(II) cluster同时表达 ZNF683 和 IKZF2,连同与上述血液中 HOBIT+ T 细胞相似的 TCR 特征,表明这两个种群之间可能存在的precursor-product关系值得进一步investigation。

CoNGA graph-versus-feature analysis.(这个分析更为细致)

  在 CoNGA graph-versus-feature分析(下图)中,基于一个细胞属性、GEX 或 TCR 序列计算的数值特征被映射到由另一个属性定义的相似性图上,以及每个属性的特征分数分布将图中的邻域与其背景分布进行比较,以识别具有偏斜分数的邻域(图邻域由单个中心顶点及其所有直接连接的邻居组成)。


图片.png

TCR and GEX similarity among epitope-specific clonotypes.

  使用与 DNA barcode结合的 pMHC 多聚体作为细胞标记试剂,可以与其他单细胞分析并行地对 pMHC 结合进行高通量询问。 应用 CoNGA 来研究 GEX 谱、TCR 序列和 pMHC 之间的相关性:在为 pMHC 多聚体结合(10x_200k_donor1-4)分类的人类 T 细胞的大型数据集中,TCR 相互作用。 为此,使用 pMHC 结合信息,严格过滤并浓缩到克隆型级别,来定义邻居图结构,其中边连接与相同 pMHC 结合的克隆型。 然后应用 CoNGAgraph-versus-graph分析来寻找该 pMHC 结合图与上面定义的 GEX 和 TCR 相似图之间的统计显着重叠。 在每个 pMHC 的基础上测量了图重叠,作为 pMHC 阳性克隆型内 GEX(或 TCR)相似性图edges的富集.(下图)


图片.png

Discussion

  在这项研究中,引入并应用了一种分析工具 CoNGA,证明该工具能够揭示由大型单细胞数据集中的共享 TCR 序列和 GEX 特征定义的 T 细胞群。 将 CoNGA 的graph-versus-graph分析应用于各种数据集,确定了表位特异性 T 细胞的不同 GEX 谱; 幼稚 CD8+ 和 CD4+ T 细胞群的repertoire选择中的偏差; 具有偏向 TCR 库的多个胸腺 T 细胞群; 在胸腺和外周血中检测到一个推定的 MHC 独立的、表达 HOBIT/HELIOS 的 CD8+ T 细胞亚群,具有独特的 CDR3 序列特征。 应用于由单细胞 pMHC 结合数据定义的图表的 CoNGA 分析确定了对不同 pMHC 具有特异性的 T 细胞群显示出独特的 GEX 谱。
  此外,虽然识别与 GEX 空间中聚集的细胞相关的标记基因是单细胞分析的常规部分,但目前还没有可用的方法来系统地识别与定义 GEX cluster的 TCR cluster或 TCR 序列偏差相关的基因。 CoNGA 通过其graph-versus-feature分析解决了这一差距,其中 TCR 衍生的属性,如 CDR3 氨基酸组成或 V 基因使用,被映射到 GEX landscape上,以检测具有偏差特征分布的邻域;类似地分析 GEX 衍生的特性,例如单个基因的表达水平,以检测 TCR landscape的偏差区域。应用该分析揭示了 HOBIT+ 群体的长 CDR3 富含疏水性残基,并且在 EPHB6 基因的表达与 TRBV30 基因片段的使用之间存在先前未表征的且高度显着的相关性。这种分析模式不仅限于 TCR 特征,还可以利用已链接、量化和集成到数据集中的任何其他标记特征(例如,pMHC 和细胞表面标记)。
  重要的下一步将是通过将 CoNGA 应用于其他具有 GEX 和 TCR(可能还有 pMHC 结合)信息的数据集来验证这些发现,因为它们可用。 它还与实验表征由 CoNGA 鉴定的 T 细胞群有关,这应该可以使用流式细胞术和由 CoNGA 聚类突出显示的标记基因。 此外,将 CoNGA 识别的 TCR 序列与大量 TCR 序列数据集进行匹配可能会为其功能提供额外的线索,同时也可以揭示匹配的repertoire sequences。
  文章的分析有几个局限性,可以在未来的工作中加以解决。 首先,在克隆型水平而不是单个细胞水平上操作的结果是属于扩增克隆型的细胞之间的变异变得模糊。 同样重要的是要记住,CoNGA 的结果将严重依赖于用于定义克隆型相似性的距离度量以及为检测 GEX:TCR 相关性而选择的框架。 根据验,成功应用 CoNGA 需要相对大量的独特克隆型(至少数百个),这取决于克隆扩增的程度,可能需要大量单个细胞。 最后,在这里报告的生物学观察的一般性应该与检查的少数捐赠者进行权衡。 未来有必要对更大的队列进行研究,以明确评估作者的一些观察结果(队列分析这是未来的分析趋势)。
  据研究,以前没有任何算法能够系统地检测 GEX:TCR 相关性。 在未来的工作中,有许多可能的 CoNGA 扩展需要探索。 CoNGA 与克隆型图的来源无关,因此,可以应用于由新的相似性度量(例如,基于表面蛋白表达)、新的 T 细胞聚类方法、表观遗传而非基因表达谱或新的免疫学定义的图和临床表型。 CoNGA 还可以通过合并类似于 TCRdist 的 B 细胞受体序列相似性评分应用于 B 细胞克隆型。 探索使用在计算机科学和机器学习社区中开发的更复杂的图相关算法作为在此处应用的邻域重叠和邻域分数丰富的替代方法也可能是值得的。
  文章的分析有几个更广泛的生物学意义,值得进一步考虑。 首先,在不同表位特异性 T 细胞群中观察到的 GEX 谱的多样性证明了记忆 T 细胞表型的广泛连续性,而不是少数离散子集。 事实上,记忆表型的定义似乎是由引发病原体决定的。 这种多样性还表明,通过将 TCR 序列与 GEX 谱信息相结合,可以改进对 T 细胞目标 pMHC 表位的预测。 由 CoNGA 鉴定的推定的 MHC 独立和幼稚 T 细胞群暗示 TCR 序列对 T 细胞命运的发育影响超出了不变和半不变 TCR 的充分表征的作用。 作者乐观地认为,结合高通量单细胞实验的分析方法将在未来几年继续阐明适应性免疫学的各个方面。

Methods

CoNGA algorithm

  CoNGA 的开发目的是在不了解这些相关性的确切性质的情况下,确定不同 T 细胞群中 GEX profiles和 TCR 序列之间的相关性。作者设想了两大类相关性:一种基于相似性,其中 GEX profiles相似的细胞在 TCR 序列方面也相似,另一种基于特征,其中 GEX 和 TCR 序列的特定方面相关两个属性的全局相似性。 CoNGA graph-versus-graph相关性被开发用于检测第一类相关性,使用图邻域的数学概念来形式化直观的全局相似性概念。相比之下,在没有相关特征的先验知识的情况下,从头发现基于特征的相关性更具挑战性,因为它需要枚举和测试所有可能的特征对。 CoNGA graph-versus-feature分析代表了一种折衷方法,假设,至少在相关性的一侧,存在一定程度的全局相似性(这是“图”侧);然后,枚举由其他属性定义的可能特征,并测试具有偏置特征分布的图邻域。 CoNGA 相似性图是在克隆型水平而非单个细胞水平上定义的。在 TCR 相似性图中,根据 TCRdist 测量评估的 TCR 相似性,每个克隆型通过边连接到其 k 最近邻 (KNN) 克隆型,该测量对 TCRα 和 TCRβ 链的 pMHC 接触 CDR 环中的序列相似性进行评分(这里 k 是一个可调参数,指定为克隆型总数的一部分)。在 GEX 相似性图中,每个克隆型都基于 GEX profiles中的相似性通过边连接到其 KNN 克隆型。扩展的克隆型由与克隆家族其余部分的平均 GEX 距离最小的单个代表性细胞的 GEX 谱表示。

TCR analysis.

  由 10x Genomics cellranger vdj 生成的 filters_contig_annotations.csv 输出文件中的 VDJ 序列数据首先使用 conga.tcrdist.make_10x_clones_file 函数解析为成对的克隆型。在这里,默认情况下,10x cellranger 克隆型定义被过滤以去除虚假链共享和合并分裂克隆型(例如,由于第二个 TCRα 转录本的部分恢复)。接下来,为了量化和评估数据集中 TCR 序列之间的相似性,计算来自这个cleaned克隆型表的每个唯一配对 TCR 之间的成对 TCRdist 距离矩阵。然后使用在 scikit-learn 的 KernelPCA 类中实现的内核主成分分析 (kPCA) 从这个距离矩阵中提取前 50 个变异分量。尽管原始 TCRdist 值可以直接用于降维和聚类(作为pipeline中的一个选项提供),但默认情况下使用内核主成分 (PC) 作为更节省内存的替代方案,因为它们可以直接合并到标准单细胞工作流程代替从 GEX 计数矩阵中提取的 PC。对于 2D landscape投影的生成,CoNGA 使用 UMAP 算法进行降维,如在 scanpy.tl.umap 中实现的。使用基于 Louvain 图的聚类算法 (scanpy.tl.louvain) 识别具有相似 TCR 序列的克隆型cluster。 UMAP 投影和聚类都依赖于使用 scanpy.pp.neighbors 例程进行的最近邻计算,其中包含 10 个邻居和 50 个 PC(从距离矩阵计算出的 50 个内核 PC)。为了在 CoNGA 可视化中注释 Louvain clusters,如果每个clusters中最常见的 V 段出现在至少 50% 的集群 TCR 中,则识别并附加到集群名称,如果出现在至少 75% 的 TCR 中,则大写(簇最初以连续整数命名,从 0 开始,最大的cluster)。

TCR sequence features

  对于每个克隆型,CoNGA 计算一组基于 TCR 序列的分数,用于graph-versus-feature分析和注释图对图cluster。 首先,一组 28 个不同的氨基酸特性在 α 和 β 链 CDR3 环(不包括每个 CDR3 的前四个和最后四个残基,其中完整的 CDR3 序列定义为从保守的半胱氨酸,并以 J 区中 GXG 基序之前的苯丙氨酸结尾并包括在内)。 这些分数包括由 VDJtools 软件包的作者从原始来源汇编的一组分数以及五个 Atchley 因素。 计算了七个额外的基于序列的分数:“alphadist”,当完整的基因片段集按基因组位置排序时,它测量 TRAV 和 TRAJ 基因之间的序数距离; ‘imhc’,iMHC 分数;'cd8',一个简单的 CD8 对 CD4 偏好评分,根据流式排序的 CD8+ 和 CD4+ TCR 序列库之间的频率差异,从 TCR V 和 J 基因使用、CDR3 长度和 CDR3 氨基酸组成计算得出; ‘cdr3len’,CDR3总长度; 'mait',它使用 TRAV1-2 和 TRAJ33/TRAJ20/TRAJ12 段(TRAV1
和 TRAJ33 在小鼠中)和 CDR3α 长度为 12 和 0 到所有其他 TCR; “inkt”,它为具有 TRAV10/TRAJ18/TRBV25 基因组合和 CDR3α 长度为 14、15 或16(TRAV11/TRAJ18 和长度为 15 的小鼠)的 TCR 分配 1 分;和‘nndists_tcr’,它通过计算与最近的 1% 克隆型的平均 TCR 距离来测量评分克隆型附近的 TCR 序列密度。 iMHC 分数是 TCR 序列特征的加权线性组合。通过使用 L1 正则化逻辑回归来拟合参数,以将数据集 10x_200k_donor1的 GEX 集群 2 中 HOBIT+ CoNGA hit(CoNGA 分数 <0.2)的 TCR 序列与其他 GEX 集群中克隆型的 TCR 序列区分开来。这里选择仅从其他 GEX cluster中提取背景克隆型,以避免在文章的阴性集中包含真正的 HOBIT+ TCR 序列。

GEX analysis.

  读取计数矩阵形式的 GEX 数据根据在 scanpy 中实施的标准工作流程进行处理,以消除计数低和线粒体含量高的细胞和基因。识别可变基因,并使用 PCA 将高维 GEX 数据投影到每个细胞的较小components(默认为 40 个components)。这些 GEX PC 用于通过将 PC 空间中具有最小平均欧几里德距离的细胞与克隆型中的其他细胞相结合来为每个克隆型选择一个具有代表性的细胞。或者,可以平均每个克隆型中所有细胞的 PC 向量以生成单个伪细胞 GEX profiles(可使用 –average_clone_gex 命令行选项访问)。一旦数据集被缩减为每个克隆型的单个细胞,UMAP 和 Louvain 聚类工具将应用于 PCA 矩阵以生成 GEX landscape和一组 GEX 克隆型cluster。克隆型分组中的 DEG(例如,簇中的一组 CoNGA hits)使用 sc.tl.rank_genes_groups 例程和“wilcoxon”方法进行识别。
  大型胸腺图谱 T 细胞数据集结合了一组异质的供体和样本; 合并这些数据以生成集成投影和clusters需要原始作者执行迭代批量校正方案。 由于如何从公开可用的数据中恢复处理过的 GEX 组件并不是很明显,并且作为对 CoNGA 对替代邻居图的鲁棒性的测试,我们选择使用提供的三维 UMAP 坐标代替 CoNGA GEX 的 GEX PC 下面描述邻居计算。 我们还直接从原始出版物中借用了 GEX 集群,而不是重新reclustering数据集。

Graph-versus-graph correlation analysis.

  在 CoNGA graph-versus-graph相关分析中,比较由 GEX 和 TCR 序列定义的相似图,以识别两个图中相邻集显着重叠的vertices(克隆型)。分配给克隆型的 CoNGA 分数等于偶然看到其 GEX 和 TCR 邻域之间相等或更大重叠的概率,乘以克隆型总数以校正多重测试。在 scipy.stats 模块中实现的超几何分布用于估计这种单边概率;这种概率分布模拟了从一组可互换的项目中独立和随机选择两个指定大小的子集时观察到的重叠。 CoNGA 中可以使用两种类型的相似图:KNN 图,其中每个克隆型都连接到 GEX 或 TCR 空间中的 KNN,以及聚类图,其中每个克隆型连接到相同(GEX 或 TCR 空间)中的所有克隆型) cluster。用于构建 KNN 图的邻居数 k 被指定为克隆型总数的一部分;对于此处报告的计算,使用了 0.01 和 0.1 的邻居分数。分配给克隆型的 CoNGA 分数是所有图形比较的最低分数,此处报告的计算中有六种组合(GEX_KNN 与 TCR_KNN、GEX_KNN 与 TCR_cluster 和 GEX_cluster 与 TCR_KNN,对于 0.01 和 0.1 KNN 邻居分数) .因为这些邻居图是相关的(例如,0.01 KNN 图中的邻域包含在 0.1 KNN 图中的邻域中),估计与使用多个图相关的多重测试负担并不完全简单。相反,转向改组实验来估计与我们使用 CoNGA 分数和cluster大小阈值选择 CoNGA cluster的过程相关的错误发现率。随机排列了相对于九个数据集的每个数据集的 GEX 信息的 TCR 序列分配,并运行了 CoNGA graph-versus-graph分析,计算了得分阈值为 1.0 的 CoNGA hit数和大小超过的 CoNGA cluster数我们的默认阈值(5 或 0.001 × num_clonotypes,以较大者为准)。对于每个数据集,此过程重复五次,产生 45 个混洗结果,观察到总共三个 CoNGA 集群,每次混洗运行的背景率为 3/45 = 0.067。
  为了评估 CoNGA graph-versus-graph分析的敏感性,进行了子采样实验,其中改变了属于已知“真阳性”群体(人类数据集中的 MAIT 细胞和小鼠中的 iNKT 细胞)的克隆型的频率 数据集)并记录报告为 CoNGA hit的分数作为子采样频率的函数。 该分析表明,回收率更依赖于二次采样真阳性克隆型的绝对数量,而不是数据集中的分数:作为二次采样计数的函数绘制的恢复曲线之间的对齐比作为二次采样分数的函数更好 . 看到相对较高的恢复率下降到约 20 个真阳性克隆型的种群规模
  出于注释目的,所有 CoNGA cluster中的 TCRβ 序列和 10x_200k 数据集中 pMHC 阳性库中的 TCRβ 序列与一组批量 TCRβ 库相匹配。 首先使用氨基酸水平的精确匹配为每条 TCRβ 链分配一个“公开”分数,该分数等于在相对较深(约 200,000 个中值克隆型)库的大型(n = 666)数据集中包含该链的库的分数。 使用 Murugan 等人提出的模型计算每个链的生成概率 (Pgen)。 为了量化 CoNGA cluster或 pMHC 阳性子集中的 TCR 序列集与库中的序列集之间的重叠,作者开发了 Morisita-Horn (MH) 重叠测量的修改版本,它解释了序列相似性(而不是 精确标识)使用高斯核:

图片.png
  在计算中,忽略了克隆型大小(即每个克隆型中的细胞数),但这些可以作为指数项的乘法前置因子包含在上述匹配分数中,用库中Ri克隆型大小的总和替换 Ni里。为了匹配配对repertoires,我们对高斯标准偏差项 σ 使用了更大的值 96。 n = 666 repertoires数据集的 MH 重叠用于计算每个 CoNGA 集群的年龄相关性,等于其 MH 重叠分数与样本供体年龄之间的线性相关系数。来自流动排序的 CD4+ 和 CD8+ 样本(n = 84)的 TCRβ 库的第二个数据集用于计算 CD4/CD8 库偏差分数等于 t 统计量,用于比较 CD4 库的 MH 分数与 MH CD8 repertoires的分数。这些样本的一个子集(n = 34)被另外分类为记忆(CD45RA-CD45RO+)和初始(CD45RA+CD62L+)子集;这些被用来计算一个类似的记忆/朴素的repertoires bias score。

Graph-versus-feature correlation analysis.

  在 CoNGA graph-versus-feature相关性分析中,基于一个属性(GEX 或 TCR)定义的数值特征被映射到由另一个属性定义的相似性图上,并识别具有偏向分数分布的图邻域。作为 GEX 属性,考虑了所有单个基因的表达水平以及一个特征(‘nndists_gex’),该特征通过计算 GEX 空间中与最近的 1% 克隆型的平均距离来捕获附近克隆型的密度。由于该分析涉及大量差异表达计算(大致是克隆型数量乘以不同相似图的数量乘以特征数量),使用两步程序,将预过滤器与随后的 t 检验相结合通过更耗时的 Mann-Whitney-Wilcoxon (MWW) 计算每个克隆型和图的前 100 个hit,通过比目标阈值高十倍的 t 检验显着性阈值。分配给检测到的关联的最终显着性分数等于原始 MWW P 值乘以克隆型数量和特征数量的乘积,以校正多重测试。

好书不厌百回读,好的文章也是如此,关于代码,前面的文章目录已经有了,这里再写一下,希望大家好好研读,运用到自己的数据里。

10X单细胞(10X空间转录组)TCR转录组联合数据分析之(8)neighbor graph analysis(CoNGA)

10X单细胞(10X空间转录组)转录组 & VDJ 联合分析(14)之CoNGA

生活很好,有你更好

上一篇下一篇

猜你喜欢

热点阅读