细胞类型重复性验证----MetaNeighbor(2)
继续上面MetaNeighbor 1的学习,我们做第二个测试数据,第二组场景的测试。
========测试数据2============
第二个数据集,基于已经训练好或者注释好的参考数据集,来衡量新数据集细胞类型注释的准确性。这个测试数据是采用的BICCN,一个小鼠初级运动皮层的细胞。可以去作者的paper链接中下载。
library(MetaNeighbor)
library(SingleCellExperiment)
biccn_data <- readRDS("full_biccn_hvg.rds")
colnames(colData(biccn_data))
table(biccn_data$study_id)
dim(biccn_data)
从数据集来看,BICCN数据包含7个不同sample的数据集,总共482,712个细胞。这个数据,作者已经鱼过滤,挑了319个高变异的基因了。
下面,使用trainModel函数通过训练来获得参考数据集,该函数具有与前面使用的MetaNeighborUS函数相同的参数。这里,我们利用两种不同的注释信息:一个是joint_subclass_label(中等分辨率,例如Vip中间神经元、L2/3 IT兴奋神经元)和joint_cluster_label(高分辨率,例如Chandelier细胞),其实就是一个注释的偏大类,一个注释到了小类。
pretrained_model <- MetaNeighbor::trainModel(var_genes = rownames(biccn_data),
dat = biccn_data,
study_id = biccn_data$study_id,
cell_type = biccn_data$joint_subclass_label)
write.table(pretrained_model,"pretrained_biccn_subclasses.txt")
pretrained_model <- MetaNeighbor::trainModel(var_genes = rownames(biccn_data),
dat = biccn_data,
study_id = biccn_data$study_id,
cell_type = biccn_data$joint_cluster_label)
write.table(pretrained_model,"pretrained_biccn_clusters.txt")
下面,我们就加载我们的测试数据,也是scRNAseq包中的一组数据。
library(scRNAseq)
tasic <- TasicBrainData(ensembl=FALSE)
colnames(colData(tasic))
tasic$study_id <- "tasic"
biccn_subclasses <- read.table("pretrained_biccn_subclasses.txt",check.names=FALSE)
biccn_clusters <- read.table("pretrained_biccn_clusters.txt",check.names=FALSE)
aurocs <- MetaNeighborUS(trained_model=biccn_subclasses,
dat = tasic,
study_id = tasic$study_id,
cell_type = tasic$primary_type,
fast_version=TRUE)
plotHeatmapPretrained(aurocs)
从图中可以看出,主要有3个大的block,根据细胞类型来看,主要是non-neurons (左上), inhibitory neurons (中间block) 和excitatory neurons (右下角)。同时也说明在三个大类型内部,可以相互很好的匹配和预测。其实大类里面还可以再继续细分小类,比如中间的inhibitory neurons。
进而,为了更加清晰的去发现inhibitory neurons 这个类型的详细信息,我们可以利用splitTrainClusters和splitTestClusters函数,来提取结果的子集重新显示。
gabaergic_tasic <- splitTestClusters(aurocs,k=4)[[2]]
gabaergic_biccn <- splitTrainClusters(aurocs[gabaergic_tasic,],k=4)[[4]]
full_label <- makeClusterName(tasic$study_id,tasic$primary_type)
tasic_subdata <- tasic[,full_label %in% gabaergic_tasic]
aurocs <- MetaNeighborUS(trained_model=biccn_subclasses[,gabaergic_biccn],
dat = tasic_subdata,
study_id = tasic_subdata$study_id,
cell_type = tasic_subdata$primary_type,
fast_version=TRUE)
plotHeatmapPretrained(aurocs,cex=0.7)
从结果来看,训练集中BICCN的Lamp5和测试数据的Igtp和Smad3高度一致同源。
上面的热图表明,所有Tasic细胞类型都可以与一个BICCN亚类相匹配。我们下面查看inhibitory neurons 的细胞是否在高分辨率细胞类型上能获得同样的结果。
aurocs <- MetaNeighborUS(trained_model=biccn_clusters,
dat = tasic_subdata,
study_id = tasic_subdata$study_id,
cell_type = tasic_subdata$primary_type,
fast_version=TRUE)
plotHeatmapPretrained(aurocs,cex=0.7)
因为BICCN的细胞类型过多,这个图就显得稍微复杂,我们也可以像前面一样,只显示最高hit的cell来显示。
best_hits<- MetaNeighborUS(trained_model=biccn_clusters,
dat = tasic_subdata,
study_id = tasic_subdata$study_id,
cell_type = tasic_subdata$primary_type,
fast_version=TRUE,
one_vs_best=TRUE)