10X单细胞（10X空间转录组）分析之寻找目标bases基因集（

2021-10-27 本文已影响0人单细胞空间交响乐

hello，大家好，今天再给大家分享一个NMF挑选感兴趣的bases（factors）的方法，PNMF，文章在scPNMF: sparse gene encoding of single cells to facilitate gene selection for targeted gene profiling，是另外一个经典的利用NMF挑选基因集的方法，关于NMF的运用，之前分享了很多了，我列举在这里，供大家参考，这里我很希望有能力的道友多多学习数学方面的知识。

10X单细胞（10X空间转录组）数据分析之NMF寻找转录programs

10X单细胞（10X空间转录组）数据分析之主成分分析（PCA）与因子分析（NMF）

10X单细胞（10X空间转录组）数据分析总结之各种NMF

10X单细胞（10X空间转录组）之NMF的实际运用示例（探索肿瘤特征）

10X单细胞（10X空间转录组）数据分析之约束非负矩阵分解（cNMF）

10X单细胞（10X空间转录组）数据分析之NMF（非负矩阵分解）

好了，看看我们今天分享的PNMF，又有哪些值得我们借鉴的地方。

Abstract

单细胞 RNA 测序 (scRNA-seq) 捕获单个细胞的整个转录组信息。尽管 scRNA-seq 测量数千个基因，但研究人员通常只对数十到数百个基因感兴趣以进行更深入的研究。那么一个问题是如何从 scRNA-seq 数据中选择那些信息丰富的基因。此外，单细胞靶向基因分析技术因其低成本、高灵敏度和额外（例如空间）信息而越来越受欢迎；然而，它们通常最多只能测量几百个基因。然后另一个具有挑战性的问题是如何根据现有的 scRNA-seq 数据选择用于靶向基因分析的基因。在这里，作者开发了单细胞投影非负矩阵分解 (scPNMF) 方法，以无监督的方式从 scRNA-seq 数据中选择信息基因。与现有的基因选择方法相比，scPNMF 有两个优点。首先，它选择的信息基因可以更好地区分细胞类型。其次，它可以将新的靶向基因分析数据与低维空间中的参考数据进行比对，以促进新数据中细胞类型的预测。从技术上讲，scPNMF 通过更改初始化和添加基础选择步骤来修改用于基因选择的 PNMF 算法，该步骤选择信息基础以区分细胞类型。实际运用中证明了 scPNMF 在不同的 scRNA-seq 数据集上优于目前的基因选择方法。此外，也表明 scPNMF 可以指导靶向基因分析实验的设计和靶向基因分析数据的细胞类型注释。

Introduction

单细胞RNA测序（scRNA-seq）技术的最新发展为破译单个细胞间的转录组异质性提供了前所未有的机会。典型的scRNA-seq数据集包含数千到数万个基因；然而，可以称之为信息基因的基因子集通常足以代表数据集中细胞的潜在生物学变异，原因有两个（这就是我们通常分析用到的高变基因）。首先，许多基因的变异与感兴趣的生物变异无关。例如，管家基因表达水平的波动与细胞类型无关。其次，许多基因的表达水平具有很强的相关性，这表明一个基因可能代表一组基因而不会丢失太多信息。因此，对于 scRNA-seq 数据分析，信息基因选择具有三个优势：（1）通过去除不需要的技术变异来增强生物信号，（2）通过关注信息基因提高分析结果的可解释性，以及（3）减少数量基因以节省计算资源。

除了 scRNA-seq 数据分析，信息性基因选择对于设计单细胞靶向基因分析实验也至关重要，可以将其定义为包括仅测量单个细胞中特定基因表达水平的所有技术。与 scRNA-seq 不同，靶向基因分析需要在测序前指定数量有限（通常不超过数百个）的基因。靶向基因分析的示例包括空间技术（例如 smFISH 和 MERFISH）和非空间技术（例如 BART-Seq、HyPRseq 和 10x-Genomics 靶向基因表达）。与 scRNA-seq 相比，靶向基因分析技术具有捕获空间信息（通过 smFISH 和 MERFISH）、每个细胞成本更低（通过 BART-Seq）以及对检测低表达基因表现出更高的灵敏度（通过 HyPR）等优势-seq）。然而，在基因数量限制下优化靶向基因分析的基因选择仍然是一个开放且具有挑战性的问题。

鉴于信息性基因选择的重要性，研究人员已经开发了许多用于 scRNA-seq 数据的基因选择方法。大多数现有方法基于每个基因表达平均值和每个基因表达方差之间的关系来选择基因（跨细胞计算每个基因的平均值和方差）。流行的示例方法包括 R 包 Seurat 中的方差稳定变换 (vst) 和均值方差图 (mvp)，以及 R 包 scran 中的 modelGeneVar。这些方法选择高度可变的基因，这些基因在其表达方式方面具有大的表达差异。其他方法使用基因重要性的各种度量而不是每个基因的表达方差。例如，M3Drop 选择在许多细胞中表达水平为零的基因； GiniClust 选择表达水平基尼指数大的基因； SCMarker 选择表达水平呈双/多模态分布并与其他一些基因共表达或互斥表达的基因。这些现有方法的一个共同限制是，它们都是为了选择相对大量的基因而设计的。因此，它们在选择少数基因方面的表现仍不清楚。例如，在Seurat 中，默认的选择的基因是2000； SCMarker 在其示例应用中选择了 700-900 个基因。所有这些基因数量都远大于 200，这是多种靶向基因分析技术允许的最大基因数量。因此，现有的基因选择方法可能不适合选择用于靶向基因分析的基因。这些方法的另一个缺点是它们选择的基因缺乏功能可解释性。也就是说，他们选择的基因不被归类为功能基因组。

除了这些基因选择方法，线性降维方法，如主成分分析（PCA）和非负矩阵分解（NMF），也可以用于基因选择。具体来说，可以根据基因对 PCA 或 NMF 发现的预测低维的贡献来选择基因。尽管已经为 scRNA-seq 数据分析开发了许多 PCA 和 NMF 算法的variants，但它们并不是为基因选择而设计的。

在这里，作者提出了一种无监督方法 scPNMF，以同时选择信息基因并将 scRNA-seq 数据投影到可解释的低维空间上。利用投影非负矩阵分解 (PNMF) 算法，scPNMF 通过输出非负稀疏权重矩阵结合了 PCA 和 NMF 的优点，该矩阵可以将高维 scRNA-seq 数据集中的细胞投影到低-维空间。与 PCA 发现的权重矩阵（又名加载矩阵）不同，scPNMF 输出的非负稀疏权重矩阵对应于每个对应于一组共表达基因集。与原始 PNMF 相比，scPNMF 的一个独特功能是基础选择：scPNMF uses correlation screening and multimodality testing to remove the bases that cannot reveal potential cell clusters in the input scRNA-seq dataset.scPNMF 有两个功能：（1）给定预先指定的基因编号和 scRNA-seq 数据集，scPNMF 根据其权重矩阵选择信息基因； (2) 给定包含信息基因的目标基因分析数据集，scPNMF 将此数据集投影到包含细胞类型标签的参考 scRNA-seq 数据集的相同低维空间，从而在目标基因分析数据集上启用细胞类型注释。综合基准表明，scPNMF 在两个方面优于现有的基因选择方法。首先，scPNMF 选择的信息基因导致最准确的细胞聚类。其次，scPNMF 的信息基因和权重矩阵导致靶向基因分析数据的最佳细胞类型预测准确性。因此，scPNMF 是一种强大的基因选择方法，可以指导单细胞靶向基因分析的实验设计和数据分析。

Methods

scPNMF 的核心是学习细胞的低维嵌入，使低维空间的基对应稀疏且互斥的基因组，并且每个组中的基因共表达并因此在功能上相关。

图片.png

注：workflow of scPNMF

scPNMF 的输入是通过 scRNA-seq 测量的对数转换的逐细胞基因计数矩阵（均一化的矩阵）。 scPNMF主要有两个步骤：(I)通过PNMF学习一个低维稀疏权重矩阵； (II) it selects bases in the weight matrix based on functional annotations (optional), correlation screening, and multimodality testing to remove uninformative bases that cannot distinguish cell types。scPNMF 的输出包括 (1) 选择的权重矩阵，将基因作为新的低维的稀疏且互斥的编码，以及 (2) 包含输入cell在低维中的嵌入的分数矩阵。选定的权重矩阵有两个主要应用：提取用于下游分析的信息基因，例如细胞聚类和新标记基因识别，以及投影新的目标基因分析数据用于数据集成和细胞类型注释。

scPNMF step I: PNMF

在部分介绍scPNMF 基础的 PNMF 算法。首先将 PNMF 的公式与主成分分析 (PCA) 和非负矩阵分解 (NMF) 的公式进行比较，表明 PNMF 具有 PCA 和 NMF 的优点，因此它可以成为 scRNA-seq 数据的有用工具分析。接下来，scPNMF 实现方法。

给定一个对数变换的计数矩阵 X∈R^{p x n}_>=0，其 p 行对应基因，n 列代表细胞，以及一个正整数 K <= p，PNMF 旨在找到一个 K 维空间，PNMF 旨在找到一个 K 维空间，其维度对应于 p 基因的非负、稀疏和互斥的线性组合，这样将 n 个细胞投影到 K 维空间上不会造成太多信息丢失（即，将 n 个细胞的 K 维嵌入投影回原始 p 维空间可以在很大程度上恢复原始 n 个细胞）。 PNMF 通过解决优化问题来解决这个任务：

图片.png

其中|| * ||表示 Frobenius 矩阵范数。 The solution W 称为权重矩阵。 W 的每一列都是一个basis，它的 p 个条目是 p 个基因的权重。 PNMF 要求所有权重都为非负，从而导致大多数权重为零的稀疏W。

PCA is similar to PNMF but does not require all weights to be non-negative. We can write the optimization problem of PCA as

图片.png

whose solution W is also a weight matrix but not sparse, and W is often referred to as the loading matrix.(PCA不要求权重矩阵矩阵非负)

PNMF 和 PCA 的一个共同特性是它们的权重矩阵 W^T∈R^Kxp 的转置可用于将具有 p 基因测量值, x∈R^p 的新细胞投影到 K 维空间作为W^T_x。

与 PMNF 和 PCA 相比，NMF 找到两个非负矩阵 W 和 H，使它们的乘积近似于原始矩阵 X。 NMF 解决了优化问题：

图片.png

其解 W 仍有 K 列表示bases，H 有 n 列作为 n 个细胞的 K 维嵌入。由于 W 和 H 的非负约束，W 是一个稀疏矩阵.但是，转置W^T不能用作从原始p维空间到K维空间的投影矩阵。原因是，如果 W^T 是一个投影矩阵，那么根据 H 的定义，我们有 W^TX = H，这会将 NMF 的目标函数转换为 PNMF 的目标函数。换句话说，PNMF 是 NMF 的约束版本，因为它要求 W^T 是一个投影矩阵。因此，PNMF 继承了 NMF 的特性，具有非负的、稀疏的bases，这些bases大多是互斥的（即不同的bases对应于不同的基因组）。此外，基于 PNMF 和 PCA 的目标函数的相似性，我们可以看到 PNMF 也类似于 PCA，通过找到一个权重矩阵，其转置可以用作投影矩阵，并且其bases在很大程度上相互正交。下表总结了 PNMF、PCA 和 NMF 的特性。

图片.png

在 scRNA-seq 数据分析的背景下，PNMF 的上述优势导致了一个可解释且有用的权重矩阵 W。定义为 NMF 的meta基因。其次，W 的互斥性使得不同的bases对应不同的基因集，便于将bases解释为meta基因或功能单元。第三，投影矩阵 W^T 允许将新数据与参考数据对齐，从而促进新数据上的细胞类型注释。

算法 1 （下图）总结了 scPNMF 中 PNMF 实现的关键步骤。算法的实现主要遵循提出PNMF算法的两篇论文（Projective nonnegative matrix factorization: Sparseness, orthogonality, and clustering、Linear and nonlinear projective nonnegative matrix factorization），将W的初始化更改为PCA，W_PCA找到的权重矩阵，对每个条目取绝对值。方法的初始化是由所需的bases（即 W 列）的正交性驱动的。

用PNMF学习的权重矩阵W∈R^{p x K}_>=0，可以得到得分矩阵S = W^TX∈R^{K x n}_>=0，其K行对应于bases，n列代表细胞。具体来说，S的第j列是第j个cell的K维embedding； S 的第 k 行，用 s^T_k 表示，包含第 k 个bases中所有 n 个细胞的分数（即坐标）：图片.png where w_k is the k-th column of W, k = 1; : : : ;K.

低秩 K 需要在 PNMF 中预先指定，与 PCA 和 NMF 中相同，较大的 K 在 X 中保留更多信息但也去除较少的噪声（不具有生物学意义的细胞的技术变异），阻碍了对 W 的解释（更多的bases更难以解释），并增加了计算负担。为了以数据驱动的方式选择 K，我们提出了正交性度量，这表明 K = 20 是多个 scRNA-seq 数据集的合理选择。（这就是为什么我们在分析单细胞数据的时候，PCA一般采用20的原因）。

scPNMF step II: basis selection

scPNMF 的第二个关键步骤是在 PNMF 发现的 K 个bases中选择信息性bases（即 W 的列和 S 的行）以去除不需要的细胞变异（例如，与细胞类型无关的变异）。 W的列具有高稀疏性和互斥性；也就是说，每一列都包含对应于一个独特的一小组基因的正权重，因此它有望反映某种生物功能。然而，一些生物学功能可能与感兴趣的细胞异质性无关，例如，细胞类型组成。受此启发，作者提出了三种选择信息基础（S 的 W 列和行）的策略：功能注释（可选）、与细胞库大小的相关性以及多模态测试。

Strategy 1: examine bases by functional annotations (optional)

第一个可选策略是在权重矩阵中注释每个bases的生物学功能。例如，scPNMF 可以将基因本体 (GO) 分析应用于每个基础（W 列）中权重最高的前 10% 基因，并将丰富的 GO 术语记录为基础的功能注释。然后，具有先验知识的用户可以在每个基础上解释功能注释并决定是否去除基础。例如，如果目标是在 scRNA-seq 数据中描绘细胞类型，则应删除与细胞周期基因相对应的基础，因为它们会掩盖细胞类型的区别。（这部分还是很重要的）。

然而，值得注意的是，在 scPNMF 中，通过生物注释过滤bases是可选的。保守用户可以保留 PNMF 输出的所有 K 个bases，直接使用数据驱动的bases选择。对于文章中的结果，scPNMF 删除了与众所周知的看家基因相对应的bases。

Data-driven strategies

Strategy 2: examine bases by correlations with cell library sizes

notice，为了方便，scPNMF 的输入是对数转换的非标准化计数矩阵。因此，在步骤 I 中计算 W 和 S 时，scPNMF 不会针对cell library大小进行调整。鉴于cell library大小的方差会导致细胞的非生物学变化，有必要去除 S 中对应行与细胞library大小密切相关bases。

我们使用总对数转换计数来近似每个细胞的library大小，并计算每个 s_k 与 n 个cell的library大小之间的 Pearson 相关性。策略是保留其 Pearson 相关性低于预定义阈值的bases，根据经验观察将其设置为 0.7.

Strategy 3: examine bases by multimodality tests

另一种数据驱动的策略是保留对应分数呈多模态分布的bases。如果一个bases的分数向量（S 中的行）包含 n 个具有多模态模式的分数，那么它很可能区分细胞类型，应该保留。为了实现这个策略，使用 ACR 测试来检查每个bases的得分向量的多峰性。原假设是得分向量包含从单峰分布中采样的 n 个得分，备择假设是该分布具有不止一种模式。在执行多个多模态测试后，每个测试一个，使用 Benjamini-Hochberg 程序通过将错误发现率控制在 1% 以下来设置 p 值阈值。将保留 p 值低于此阈值的bases。

总之，scPNMF 步骤 II 允许使用策略 1 根据可用的功能注释过滤掉无信息基础；然后它实施数据驱动策略 2 和 3，以进一步去除与cell library大小具有强相关性并表现出单峰模式的bases。保留的bases将在 W 中选择其对应的列并堆叠到选定的权重矩阵W_s∈R^{p x K₀}_>=0中，其中 K₀ 是选定bases的数量。

Applications of scPNMF output: informative gene selection and new data projection

scPNMF 输出的选定权重矩阵 W_S 有两个主要应用：选择所需数量的信息基因和将新的目标基因分析数据投影到由 W_S 定义的低维空间。给定基因数 M（例如 200），scPNMF 使用 M 截断，这是在W_S中选择 M 行的步骤，从而产生 M 个信息基因和一个截断的、选定的权重矩阵 W_S,M∈R^{M x K₀}_>=0 用于新数据投影。

M-truncation and informative gene selection

We denote the desired number of informative genes by M ∈ N, with M 《= # of non-zero rows in W_S. M-truncation has three steps.

1、For each gene $i$ , calculate its largest weight $w$ _$i$ across bases in W_S:

图片.png

2、Order genes by their maximum weights w₍₁₎ >= w₍₂₎ >=...>= w_(p)and set the truncation threshold as $w$ _(M). Identify the first M genes as informative genes.

3、Construct the truncated, selected weight matrix W_S;(M):

(1) Truncate the selected weight matrix W_S by setting all (W_S)_ik < $w$ _(M) to be 0;
(2) Keep the $M$ rows with non-zero entries; stack them by row into W_S;(M) based on the order of the informative genes.

简而言之，scPNMF 根据它们在所选bases中的最大权重来选择信息基因。其基本原理是基因的最大权重反映了该基因对建立 K₀ 维空间的贡献，该空间保留了 n 个细胞的感兴趣的生物变异。因此，在编码细胞生物变异的意义上，具有更大最大权重的基因具有更多信息。信息基因选择的一个重要应用是指导目标基因分析实验的设计。

New data projection

给定选定的 $M$ 个信息基因，一旦通过对这些基因的靶向基因分析测量新细胞，W_S;(M) 可用于将新细胞投影到 K₀ 维空间，其中输入 scRNA-seq 数据中的细胞是嵌入。如果输入数据有细胞类型注释，我们将输入数据称为参考数据，然后可以根据参考数据中的细胞类型预测新的细胞类型。具体来说，新数据投影有以下几个步骤：

1、将带有 $M$ 截断的 scPNMF 应用于输入、具有 n 个细胞的参考数据 X∈R^{p x n}_>=0 以获得截断的、选定的权重矩阵 W_S;(M)。Construct X∈R^{p x n}_>=0 as a submatrix of X，行对应于 W_S;(M) 的行，即 $M$ 个信息基因。因此，参考数据中 n 个细胞的 K₀ 维嵌入是

图片.png

2、Denote the targeted gene profiling data of n0 new cells with M informative genes measured by X^New_(M)∈R^{M x n'}. Note that X^New_(M) contains log-transformed counts and has rows (genes) corresponding to the rows of X_(M). Project the n' cells to the K₀-dimensional space by:

图片.png

3、（可选）使用 Harmony 等单细胞集成方法对 X^New_(M) 和 X^ref_(M)进行归一化以消除批次效应（如果存在）。

现在 n 个参考细胞和 n' 个新细胞在同一个 K₀ 维空间中，保留了生物变异。然后可以在 n 个参考细胞类型和 X^ref_(M)上训练分类器进行细胞类型预测，它可以用于从 X^New_(M)预测 n' 个细胞类型。

Results

scPNMF 输出 scRNA-seq 数据的稀疏且功能可解释的表示

首先证明 scPNMF 步骤 I，PNMF，输出细胞的稀疏且功能可解释的基因编码。这里使用由三种细胞类型（三种人肺腺癌细胞系）组成的 FregGold 数据集，并设置基数 K = 5 用于演示目的。 PCA 和 PNMF 都学习了一个权重矩阵，可以将原始 scRNA-seq 数据投影到 5 维空间。与没有零项的 PCA 权重矩阵不同，PNMF 的权重矩阵是非负的、高度稀疏的，包含 42.6% 的项为零，并且基数在很大程度上是互斥的（即不同的非零项）。列对应于不同的行/基因）图片.png GO富集分析表明，每个PNMF基础中的高权重基因富集了概念相似的GO通路，而不同PNMF基础中的高权重基因富集了概念不同的GO通路图片.png 该结果表明 PNMF bases对应于具有不同功能的基因组。相反，PCA bases没有很好的功能解释：每个 PCA 基础中的高权重基因没有富集概念上相似的 GO 通路，不同的 PCA bases共享许多高权重基因。

为了进一步分析 PNMF bases，我们列出了每个bases中的前 10 个高权重基因，从中我们确定了许多具有重要功能的显著基因。例如，base 1 包含经典的管家基因，如 GAPDH 和核糖体蛋白基因 (RPS-)； base 3 包含众所周知的肿瘤相关基因，包括 EGFR 和 CDK4。特别是，HCC827 细胞系（三种细胞类型之一）的细胞在base 3 中总体得分较高，这是一个合理的结果，因为 HCC827 细胞系含有 EGFR 激活突变。总之，scPNMF 步骤 I 输出代表稀疏和功能可解释基因集的bases。

Basis selection is an essential step in scPNMF

在这里，我们解释了为什么bases选择是 scPNMF 中必不可少的步骤。上述最后的分析中展示了 FregGold 数据集的每个 PNMF 基础大约代表一个功能基因组。众所周知，管家基因（base 1）和细胞周期基因（base 4）通常与细胞类型的区别无关。然而，这种生物学知识并不总是可用或确定的。因此，scPNMF 主要依赖于两种数据驱动策略：与cell library大小的相关性和用于选择信息基础的多模态测试。

下图显示了两种策略图片.png ：base 1 和 4 中的细胞分数与cell library大小高度相关（Pearson 相关性 > 0:9）； base 2 和 3 中的细胞分数显示出多模态分布的有力证据（调整后的 p 值 < 0:05）。因此，策略 1 不会保留base 1 和 4，策略 2 不会保留base 1、4 和 5；放在一起，将删除base 1 和 4，并选择base 2、3 和 5。为了验证bases选择的有效性，我们使用 UMAP 来可视化基于未选择bases 1 和 4 中的前 50 个高权重基因与所选bases 2、3 和 5 中的细胞图片.png 观察到未选择bases中的top基因完全无法分离三种细胞类型，而所选bases中的top基因则完美地区分了三种细胞类型。该结果强烈支持bases选择是 scPNMF 的必要步骤。

scPNMF outperforms state-of-the-art gene-selection methods on

diverse scRNA-seq datasets

这个部分，展示了 scPNMF 信息基因选择的能力。这里使用三种聚类方法（Louvain 聚类、K-means 聚类和层次聚类）在七个 scRNA-seq 数据集上针对 11 种其他单细胞信息选择方法对 scPNMF 进行全面基准测试。为了公平基准，七个 scRNA-seq 数据集涵盖了唯一分子标识符 (UMI) 和非 UMI protocols，并包括各种生物样本。使用调整后的秩指数 (ARI) 作为聚类精度的度量，我们使用每种基因选择方法选择的 100 个信息基因计算每个数据集上三种聚类方法的 ARI 值，因为 100 个基因通常用于目标基因分析。

下图显示 scPNMF 总体上在数据集和聚类方法中具有最高的 ARI 值。图片.png 特别是，scPNMF 具有每种聚类方法的最高平均 ARI 值（Louvain：0.83；K-means：0.74；层次聚类：0.69）和跨数据集和聚类方法的最高总体平均 ARI (0.75)。 notice，除 scPNMF 外，所有方法的总体平均 ARI 值的平均值仅为 0.66。

我们根据 12 种基因选择方法中的每一种选择的信息基因，进一步显示了 Zheng4 数据集中细胞的 UMAP 可视化（下图）图片.png 只有 scPNMF 导致幼稚细胞毒性 T 细胞和调节性 T 细胞的明确分离，而通过除 corFS 和 irlbaPcaFS 之外的其他方法选择的信息基因根本无法区分这两种细胞类型。

还比较了不同数量的信息基因下的 12 种方法：20、50、200 和 500，这是靶向基因分析中常用的基因数。我们观察到，在所有信息基因数中，scPNMF 的总体平均 ARI 值始终高于其他方法的平均 ARI 值（下图）。图片.png 此外，与其他方法相比，scPNMF 在不同数量的信息基因下导致更稳定的整体平均 ARI 值，表明其对靶向基因分析的基因数量约束具有更强的鲁棒性。这些结果有力地支持了 scPNMF 作为信息基因选择方法的优越性能。

scPNMF guides targeted gene profiling experimental design and cell-type prediction

这部分，展示了 scPNMF 如何指导目标基因分析实验中要测量的基因的选择，以及 scPNMF 如何在目标基因分析数据上启用后续细胞类型注释。这里设计了两个具有配对 scRNA-seq 参考数据和“伪”靶向基因分析数据的案例研究，其每细胞测序深度高于相应的 scRNA-seq 数据。

In the first case study, we use the Zheng8 dataset (measured by the 10x protocol) as the reference dataset. To generate the pseudo targeted gene profiling data, we use a new single-cell gene expression simulator that captures gene correlations, scDesign2, to generate data with a 100 time higher per-cell sequencing depth. In the second case study, we use the PBMC10x dataset (measured by 10x protocol) as the reference dataset, and we use PBMCSmartseq (measured by Smart-Seq2) as the pseudo targeted gene profiling data because Smart-Seq2 has a higher pergene sequencing depth than 10x does. In both case studies, for each gene selection method, the corresponding pseudo targeted gene profiling datasets only contain the M informative genes selected by the method.

在伪靶向基因分析数据的细胞类型预测方面针对 11 种基因选择方法对 scPNMF 进行了基准测试。为了避免特定分类算法的偏差，应用了三种流行的细胞类型预测算法：随机森林 (RF)、k-最近邻 (KNN) 和支持向量机 (SVM)。在每个案例研究中，我们首先在参考细胞 SRef 的低维嵌入上训练每个分类算法S^ref_(M) 给定 M = 100 个由每种基因选择方法选择的信息基因。然后将训练好的分类器应用于伪目标基因中细胞的低维嵌入分析数据 S^New_(M)。下表显示 scPNMF 在六种组合（两个案例研究三个分类算法）中导致最高的平均预测准确度 (0.81) 图片.png 此外，scPNMF 在每个组合中都达到了最高的准确率，除了 Zheng8 + 随机森林是第二好的。这些结果证实，scPNMF 有效地指导了靶向基因分析实验中要测量的基因的选择，并且可以在新生成的靶向基因分析数据集上实现准确的细胞类型注释。

Discussion

提出了方法scPNMF，一种用于 scRNA-seq 数据的无监督基因选择和数据投影方法。 scPNMF 的主要目标是选择固定数量的信息基因来区分细胞类型并指导基因选择以进行靶向基因分析实验。此外，scPNMF 可以将带有选定基因的新目标基因分析数据集投影到嵌入参考 scRNA-seq 数据集的低维空间。可以根据最前沿的基因选择方法在信息基因选择方面执行综合基准来评估 scPNMF。最终的结果表明，scPNMF 在不同 scRNA-seq 数据集上的各种信息基因数（从 20 到 500）方面始终优于现有方法。还证明，scPNMF 选择的信息基因可以有效指导靶向基因分析的基因选择，并基于参考 scRNA-seq 数据对靶向基因分析数据进行准确的细胞类型注释。

除了基因选择和数据投影，scPNMF 还可以作为一种具有良好解释性的降维方法。 scPNMF 发现的低维空间中的每个维度都可以被视为一个新的功能“特征”（作为相关基因的线性组合，因此功能相关基因）。此外，互斥性使得 scPNMF 中使用的 PNMF 碱基在消除混杂效应方面优于 PCA bases。例如，细胞周期基因掩盖了细胞类型的识别，应该从细胞的低维嵌入中去除。对于 PCA，细胞周期基因会影响许多 PCA bases，因此流行的 scRNA-seq 管道 Seurat 实施了一种复杂的方法，首先计算“细胞周期分数”，然后对这些分数的每个基础（主成分）进行回归，以消除细胞-序列的影响。循环基因。相比之下，细胞周期基因仅集中在一个 PNMF 基础上，因此很容易去除该基础以清除细胞周期基因的影响。因此，scPNMF 作为一种可解释的降维方法，在破译单细胞数据中的细胞异质性方面具有巨大的潜力。

scPNMF 的当前实施侧重于单细胞基因表达数据。考虑到单细胞多组学技术的快速发展，计划扩展 scPNMF 以适应其他测量其他基因组学特征的技术，例如通过单细胞 ATAC-seq 测量的染色质可及性景观，甚至整合跨多组学数据集的数据 . 另一个注意事项是，scPNMF 中基础选择的多模态测试只考虑了离散的细胞类型，而不是连续的细胞轨迹。因此，需要其他测试或策略来选择信息基础来捕捉沿连续细胞轨迹的生物变异。

基因选择的一个重要问题是：应该选择多少基因作为信息基因来充分捕捉感兴趣的生物变异？在我们的研究中，我们观察到，在信息基因数达到 200 后，基于所选信息基因的聚类准确度对于包括 scPNMF 在内的大多数基因选择方法都保持平稳。因此，200 个基因可能足以捕获 scRNA-seq 数据中的生物变异。然而，考虑到潜在的细胞亚群结构是数据特异性的并且可能很复杂，决定信息基因的最小数量仍然具有挑战性。我们计划在未来可能使用信息论来探索这个问题。

图片.png

示例代码在scPNMF

生活很好，有你更好

10X单细胞（10X空间转录组）分析之寻找目标bases基因集（

10X单细胞（10X空间转录组）数据分析之NMF寻找转录programs

10X单细胞（10X空间转录组）数据分析之主成分分析（PCA）与因子分析（NMF）

10X单细胞（10X空间转录组）数据分析总结之各种NMF

10X单细胞（10X空间转录组）之NMF的实际运用示例（探索肿瘤特征）

10X单细胞（10X空间转录组）数据分析之约束非负矩阵分解（cNMF）

10X单细胞（10X空间转录组）数据分析之NMF（非负矩阵分解）

好了，看看我们今天分享的PNMF，又有哪些值得我们借鉴的地方。

Abstract

Introduction

Methods

scPNMF 的核心是学习细胞的低维嵌入，使低维空间的基对应稀疏且互斥的基因组，并且每个组中的基因共表达并因此在功能上相关。

scPNMF step I: PNMF

在部分介绍scPNMF 基础的 PNMF 算法。 首先将 PNMF 的公式与主成分分析 (PCA) 和非负矩阵分解 (NMF) 的公式进行比较，表明 PNMF 具有 PCA 和 NMF 的优点，因此它可以成为 scRNA-seq 数据的有用工具 分析。 接下来，scPNMF 实现方法。

其中|| * ||表示 Frobenius 矩阵范数。 The solution W 称为权重矩阵。 W 的每一列都是一个basis，它的 p 个条目是 p 个基因的权重。 PNMF 要求所有权重都为非负，从而导致大多数权重为零的稀疏W。

PCA is similar to PNMF but does not require all weights to be non-negative. We can write the optimization problem of PCA as

whose solution W is also a weight matrix but not sparse, and W is often referred to as the loading matrix.(PCA不要求权重矩阵矩阵非负)

PNMF 和 PCA 的一个共同特性是它们的权重矩阵 WT∈RKxp 的转置可用于将具有 p 基因测量值, x∈Rp 的新细胞投影到 K 维空间作为WTx。

与 PMNF 和 PCA 相比，NMF 找到两个非负矩阵 W 和 H，使它们的乘积近似于原始矩阵 X。 NMF 解决了优化问题：

scPNMF step II: basis selection

Strategy 1: examine bases by functional annotations (optional)

然而，值得注意的是，在 scPNMF 中，通过生物注释过滤bases是可选的。 保守用户可以保留 PNMF 输出的所有 K 个bases，直接使用数据驱动的bases选择。 对于文章中的结果，scPNMF 删除了与众所周知的看家基因相对应的bases。

Data-driven strategies

Strategy 2: examine bases by correlations with cell library sizes

我们使用总对数转换计数来近似每个细胞的library大小，并计算每个 sk 与 n 个cell的library大小之间的 Pearson 相关性。 策略是保留其 Pearson 相关性低于预定义阈值的bases，根据经验观察将其设置为 0.7.

Strategy 3: examine bases by multimodality tests

Applications of scPNMF output: informative gene selection and new data projection

M-truncation and informative gene selection

We denote the desired number of informative genes by M ∈ N, with M 《= # of non-zero rows in WS. M-truncation has three steps.

1、For each gene , calculate its largest weight across bases in WS:

2、Order genes by their maximum weights w(1) >= w(2) >=...>= w(p)and set the truncation threshold as (M). Identify the first M genes as informative genes.

3、Construct the truncated, selected weight matrix WS;(M):

New data projection

2、Denote the targeted gene profiling data of n0 new cells with M informative genes measured by XNew(M)∈RM x n'. Note that XNew(M) contains log-transformed counts and has rows (genes) corresponding to the rows of X(M). Project the n' cells to the K0-dimensional space by:

3、（可选）使用 Harmony 等单细胞集成方法对 XNew(M) 和 Xref(M)进行归一化以消除批次效应（如果存在）。

现在 n 个参考细胞和 n' 个新细胞在同一个 K0 维空间中，保留了生物变异。 然后可以在 n 个参考细胞类型和 Xref(M)上训练分类器进行细胞类型预测，它可以用于从 XNew(M)预测 n' 个细胞类型。

Results

scPNMF 输出 scRNA-seq 数据的稀疏且功能可解释的表示

Basis selection is an essential step in scPNMF

scPNMF outperforms state-of-the-art gene-selection methods on

scPNMF guides targeted gene profiling experimental design and cell-type prediction

Discussion

示例代码在scPNMF

猜你喜欢

热点阅读

在部分介绍scPNMF 基础的 PNMF 算法。首先将 PNMF 的公式与主成分分析 (PCA) 和非负矩阵分解 (NMF) 的公式进行比较，表明 PNMF 具有 PCA 和 NMF 的优点，因此它可以成为 scRNA-seq 数据的有用工具分析。接下来，scPNMF 实现方法。

PNMF 和 PCA 的一个共同特性是它们的权重矩阵 W^T∈R^Kxp 的转置可用于将具有 p 基因测量值, x∈R^p 的新细胞投影到 K 维空间作为W^T_x。

然而，值得注意的是，在 scPNMF 中，通过生物注释过滤bases是可选的。保守用户可以保留 PNMF 输出的所有 K 个bases，直接使用数据驱动的bases选择。对于文章中的结果，scPNMF 删除了与众所周知的看家基因相对应的bases。

我们使用总对数转换计数来近似每个细胞的library大小，并计算每个 s_k 与 n 个cell的library大小之间的 Pearson 相关性。策略是保留其 Pearson 相关性低于预定义阈值的bases，根据经验观察将其设置为 0.7.

We denote the desired number of informative genes by M ∈ N, with M 《= # of non-zero rows in W_S. M-truncation has three steps.

1、For each gene $i$ , calculate its largest weight $w$ _$i$ across bases in W_S:

2、Order genes by their maximum weights w₍₁₎ >= w₍₂₎ >=...>= w_(p)and set the truncation threshold as $w$ _(M). Identify the first M genes as informative genes.

3、Construct the truncated, selected weight matrix W_S;(M):

2、Denote the targeted gene profiling data of n0 new cells with M informative genes measured by X^New_(M)∈R^{M x n'}. Note that X^New_(M) contains log-transformed counts and has rows (genes) corresponding to the rows of X_(M). Project the n' cells to the K₀-dimensional space by:

3、（可选）使用 Harmony 等单细胞集成方法对 X^New_(M) 和 X^ref_(M)进行归一化以消除批次效应（如果存在）。

现在 n 个参考细胞和 n' 个新细胞在同一个 K₀ 维空间中，保留了生物变异。然后可以在 n 个参考细胞类型和 X^ref_(M)上训练分类器进行细胞类型预测，它可以用于从 X^New_(M)预测 n' 个细胞类型。