细胞类型重复性验证----MetaNeighbor（2）

2022-12-11 本文已影响0人 jjjscuedu

继续上面MetaNeighbor 1的学习，我们做第二个测试数据，第二组场景的测试。

========测试数据2============

第二个数据集，基于已经训练好或者注释好的参考数据集，来衡量新数据集细胞类型注释的准确性。这个测试数据是采用的BICCN，一个小鼠初级运动皮层的细胞。可以去作者的paper链接中下载。

library(MetaNeighbor)

library(SingleCellExperiment)

biccn_data <- readRDS("full_biccn_hvg.rds")

colnames(colData(biccn_data))

table(biccn_data$study_id)

dim(biccn_data)

从数据集来看，BICCN数据包含7个不同sample的数据集，总共482,712个细胞。这个数据，作者已经鱼过滤，挑了319个高变异的基因了。

下面，使用trainModel函数通过训练来获得参考数据集，该函数具有与前面使用的MetaNeighborUS函数相同的参数。这里，我们利用两种不同的注释信息：一个是joint_subclass_label（中等分辨率，例如Vip中间神经元、L2/3 IT兴奋神经元）和joint_cluster_label（高分辨率，例如Chandelier细胞），其实就是一个注释的偏大类，一个注释到了小类。

pretrained_model <- MetaNeighbor::trainModel(var_genes = rownames(biccn_data),

dat = biccn_data,

study_id = biccn_data$study_id,

cell_type = biccn_data$joint_subclass_label)

write.table(pretrained_model,"pretrained_biccn_subclasses.txt")

pretrained_model <- MetaNeighbor::trainModel(var_genes = rownames(biccn_data),

dat = biccn_data,

study_id = biccn_data$study_id,

cell_type = biccn_data$joint_cluster_label)

write.table(pretrained_model,"pretrained_biccn_clusters.txt")

下面，我们就加载我们的测试数据，也是scRNAseq包中的一组数据。

library(scRNAseq)

tasic <- TasicBrainData(ensembl=FALSE)

colnames(colData(tasic))

tasic$study_id <- "tasic"

biccn_subclasses <- read.table("pretrained_biccn_subclasses.txt",check.names=FALSE)

biccn_clusters <- read.table("pretrained_biccn_clusters.txt",check.names=FALSE)

aurocs <- MetaNeighborUS(trained_model=biccn_subclasses,

dat = tasic,

study_id = tasic$study_id,

cell_type = tasic$primary_type,

fast_version=TRUE)

plotHeatmapPretrained(aurocs)

从图中可以看出，主要有3个大的block，根据细胞类型来看，主要是non-neurons (左上), inhibitory neurons (中间block) 和excitatory neurons (右下角)。同时也说明在三个大类型内部，可以相互很好的匹配和预测。其实大类里面还可以再继续细分小类，比如中间的inhibitory neurons。

进而，为了更加清晰的去发现inhibitory neurons 这个类型的详细信息，我们可以利用splitTrainClusters和splitTestClusters函数，来提取结果的子集重新显示。

gabaergic_tasic <- splitTestClusters(aurocs,k=4)[[2]]

gabaergic_biccn <- splitTrainClusters(aurocs[gabaergic_tasic,],k=4)[[4]]

full_label <- makeClusterName(tasic$study_id,tasic$primary_type)

tasic_subdata <- tasic[,full_label %in% gabaergic_tasic]

aurocs <- MetaNeighborUS(trained_model=biccn_subclasses[,gabaergic_biccn],

dat = tasic_subdata,

study_id = tasic_subdata$study_id,

cell_type = tasic_subdata$primary_type,

fast_version=TRUE)

plotHeatmapPretrained(aurocs,cex=0.7)

从结果来看，训练集中BICCN的Lamp5和测试数据的Igtp和Smad3高度一致同源。

上面的热图表明，所有Tasic细胞类型都可以与一个BICCN亚类相匹配。我们下面查看inhibitory neurons 的细胞是否在高分辨率细胞类型上能获得同样的结果。

aurocs <- MetaNeighborUS(trained_model=biccn_clusters,

dat = tasic_subdata,

study_id = tasic_subdata$study_id,

cell_type = tasic_subdata$primary_type,

fast_version=TRUE)

plotHeatmapPretrained(aurocs,cex=0.7)

因为BICCN的细胞类型过多，这个图就显得稍微复杂，我们也可以像前面一样，只显示最高hit的cell来显示。

best_hits<- MetaNeighborUS(trained_model=biccn_clusters,

dat = tasic_subdata,

study_id = tasic_subdata$study_id,

cell_type = tasic_subdata$primary_type,

fast_version=TRUE,

one_vs_best=TRUE)

细胞类型重复性验证----MetaNeighbor（2）

猜你喜欢

热点阅读