生信大合集科研-生信学习

ArchR官网教程学习笔记6:单细胞嵌入(Single-cell

2020-11-24  本文已影响0人  生信start_site

系列回顾:
ArchR官网教程学习笔记1:Getting Started with ArchR
ArchR官网教程学习笔记2:基于ArchR推测Doublet
ArchR官网教程学习笔记3:创建ArchRProject
ArchR官网教程学习笔记4:ArchR的降维
ArchR官网教程学习笔记5:ArchR的聚类

在ArchR中,使用UMAP或t-SNE等嵌入方法在降维空间中可实现单细胞的可视化。这些嵌入方法各有其独特的优点和缺点。我们称这些为“嵌入”,是因为它们严格用于可视化clusters,而不是用于识别clusters(LSI子空间中完成)。UMAP和t-SNE的主要区别在于对细胞或clusters间距离的解释。t-SNE被设计用来保存数据中的局部结构,而UMAP被设计用来保存数据中的局部结构和大部分全局结构。理论上,这意味着两个clusters之间的距离在t-SNE中不具有信息性,而在UMAP中具有信息性。例如,在t-SNE上,如果观察到cluster A比cluster C更靠近cluster B,那么t-SNE就不允许你下结论说A比C更接近B。相反,UMAP的设计是为了允许这种类型的比较,但值得注意的是,UMAP是一种新的方法,很多研究者仍然使用t-SNE。

需要注意的是,t-SNE和UMAP都不是自然确定的(相同的输入总是给出完全相同的输出)。然而,与UMAP相比,t-SNE在多次相同输入的结果中显示出了更多的随机性。此外,当使用相同的随机种子(seed)时,uwot包中实现的UMAP是确定性的。使用UMAP还是t-SNE的选择是有细微差别的,但在我们的经验中,UMAP非常适合多种数据集,这是我们对scATAC-seq数据的标准选择。UMAP的运行速度也比t-SNE快。最重要的是,使用UMAP,你可以创建一个嵌入并将新样本投射到嵌入中,而使用t-SNE是不可能的,因为t-SNE中数据的拟合和预测是同时发生的。

无论选择哪种方法,输入参数都可能对结果的嵌入产生巨大影响。因此,理解各种输入参数并调整它们以最佳地满足数据的需要是很重要的。ArchR实现了一组默认的输入参数,这些参数适用于大多数数据集,但实际上并没有一组参数能够为细胞数、复杂性和质量差异很大的数据集生成理想的结果。

(一)UMAP

在ArchR里运行UMAP,使用addUMAP()

> projHeme2 <- addUMAP(
  ArchRProj = projHeme2, 
  reducedDims = "IterativeLSI", 
  name = "UMAP", 
  nNeighbors = 30, 
  minDist = 0.5, 
  metric = "cosine"
)

你还可以查看你现在的这个ArchRProject里有哪些嵌入:

> projHeme2@embeddings
List of length 1
names(1): UMAP

要绘制UMAP结果,我们使用plotEmbedding()函数,并传递我们刚刚生成的UMAP嵌入的名称(“UMAP”)。我们可以通过使用颜色组合colorBy告诉ArchR如何为细胞上色,它会告诉ArchR使用哪个矩阵来查找指定的metadata列来命名:

> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "UMAP")
> p1

上面是使用的“样品”来给细胞上色,我们也可以使用clusters来给细胞上色:

> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "UMAP")
> p2

我们还可以把两张图并排同时显示,参数type = "h"表示水平放置:

> ggAlignPlots(p1, p2, type = "h")

保存图片:

> plotPDF(p1,p2, name = "Plot-UMAP-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)

上一章我们还用了scran方法进行了聚类,现在也可以使用plotEmbedding()对其进行可视化:

> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "UMAP")
> p1
> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "ScranClusters", embedding = "UMAP")
> p2
> ggAlignPlots(p1, p2, type = "h") #并排展示图片
> plotPDF(p1,p2, name = "Plot-UMAP-Sample-ScranClusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)

(二)t-SNE

我们使用addTSNE()函数在ArchR里运行t-SNE:

> projHeme2 <- addTSNE(
  ArchRProj = projHeme2, 
  reducedDims = "IterativeLSI", 
  name = "TSNE", 
  perplexity = 30
)

> projHeme2@embeddings
List of length 2
names(2): UMAP TSNE

t-SNE的可视化:

> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "TSNE")
> p1
> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "TSNE")
> p2
> ggAlignPlots(p1, p2, type = "h")
> plotPDF(p1,p2, name = "Plot-TSNE-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)

同样的,我们也可以使用t-SNE来可视化scran聚类结果:

> p1 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "TSNE")
> p1
> p2 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "ScranClusters", embedding = "TSNE")
> p2
> ggAlignPlots(p1, p2, type = "h")
> plotPDF(p1,p2, name = "Plot-tSNE-Sample-ScranClusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)

(三)在Harmony之后降维

在前一章中,我们通过addHarmony()函数使用Harmony执行批次效应修正,创建了一个名为“Harmony”的reducedDims对象。我们可以通过使用UMAP或t-SNE可视化嵌入来评估Harmony的效果。

用相同的参数重复UMAP嵌入,只不过是用“Harmony” reducedDims 对象(前面我们用的对象都是迭代LSI对象):

> projHeme2 <- addUMAP(
  ArchRProj = projHeme2, 
  reducedDims = "Harmony", 
  name = "UMAPHarmony", 
  nNeighbors = 30, 
  minDist = 0.5, 
  metric = "cosine"
)
> projHeme2@embeddings
List of length 3
names(3): UMAP TSNE UMAPHarmony

可视化:

> p3 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "UMAPHarmony")
> p3
> p4 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "UMAPHarmony")
> p4
> ggAlignPlots(p3, p4, type = "h")
> plotPDF(p1,p2,p3,p4, name = "Plot-UMAP2Harmony-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)

用t-SNE对Harmony对象进行分析:

> projHeme2 <- addTSNE(
  ArchRProj = projHeme2, 
  reducedDims = "Harmony", 
  name = "TSNEHarmony", 
  perplexity = 30
)

> projHeme2@embeddings
List of length 4
names(4): UMAP TSNE UMAPHarmony TSNEHarmony

可视化:

> p3 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Sample", embedding = "TSNEHarmony")
> p3
> p4 <- plotEmbedding(ArchRProj = projHeme2, colorBy = "cellColData", name = "Clusters", embedding = "TSNEHarmony")
> p4
> ggAlignPlots(p3, p4, type = "h")
> plotPDF(p1,p2,p3,p4, name = "Plot-TSNE2Harmony-Sample-Clusters.pdf", ArchRProj = projHeme2, addDOC = FALSE, width = 5, height = 5)
上一篇下一篇

猜你喜欢

热点阅读