单细胞转录组生信绘图单细胞测序

细胞类型重复性验证----MetaNeighbor(2)

2022-12-11  本文已影响0人  jjjscuedu

继续上面MetaNeighbor 1的学习,我们做第二个测试数据,第二组场景的测试。

========测试数据2============

第二个数据集,基于已经训练好或者注释好的参考数据集,来衡量新数据集细胞类型注释的准确性。这个测试数据是采用的BICCN,一个小鼠初级运动皮层的细胞。可以去作者的paper链接中下载。

library(MetaNeighbor)

library(SingleCellExperiment)

biccn_data <- readRDS("full_biccn_hvg.rds")

colnames(colData(biccn_data))

table(biccn_data$study_id)

dim(biccn_data)

从数据集来看,BICCN数据包含7个不同sample的数据集,总共482,712个细胞。这个数据,作者已经鱼过滤,挑了319个高变异的基因了。

下面,使用trainModel函数通过训练来获得参考数据集,该函数具有与前面使用的MetaNeighborUS函数相同的参数。这里,我们利用两种不同的注释信息:一个是joint_subclass_label(中等分辨率,例如Vip中间神经元、L2/3 IT兴奋神经元)和joint_cluster_label(高分辨率,例如Chandelier细胞),其实就是一个注释的偏大类,一个注释到了小类。

pretrained_model <- MetaNeighbor::trainModel(var_genes = rownames(biccn_data),

                        dat = biccn_data,

                        study_id = biccn_data$study_id,

                        cell_type = biccn_data$joint_subclass_label)

write.table(pretrained_model,"pretrained_biccn_subclasses.txt")

pretrained_model <- MetaNeighbor::trainModel(var_genes = rownames(biccn_data),

                        dat = biccn_data,

                        study_id = biccn_data$study_id,

                        cell_type = biccn_data$joint_cluster_label)

write.table(pretrained_model,"pretrained_biccn_clusters.txt")

下面,我们就加载我们的测试数据,也是scRNAseq包中的一组数据。

library(scRNAseq)

tasic <- TasicBrainData(ensembl=FALSE)

colnames(colData(tasic))

tasic$study_id <- "tasic"

biccn_subclasses <- read.table("pretrained_biccn_subclasses.txt",check.names=FALSE)

biccn_clusters <- read.table("pretrained_biccn_clusters.txt",check.names=FALSE)

aurocs <- MetaNeighborUS(trained_model=biccn_subclasses,

                        dat = tasic,

                        study_id = tasic$study_id,

                        cell_type = tasic$primary_type,

fast_version=TRUE)

plotHeatmapPretrained(aurocs)

从图中可以看出,主要有3个大的block,根据细胞类型来看,主要是non-neurons (左上), inhibitory neurons (中间block) 和excitatory neurons (右下角)。同时也说明在三个大类型内部,可以相互很好的匹配和预测。其实大类里面还可以再继续细分小类,比如中间的inhibitory neurons。

进而,为了更加清晰的去发现inhibitory neurons 这个类型的详细信息,我们可以利用splitTrainClusters和splitTestClusters函数,来提取结果的子集重新显示。

gabaergic_tasic <- splitTestClusters(aurocs,k=4)[[2]]

gabaergic_biccn <- splitTrainClusters(aurocs[gabaergic_tasic,],k=4)[[4]]

full_label <- makeClusterName(tasic$study_id,tasic$primary_type)

tasic_subdata <- tasic[,full_label %in% gabaergic_tasic]

aurocs <- MetaNeighborUS(trained_model=biccn_subclasses[,gabaergic_biccn],

                        dat = tasic_subdata,

                        study_id = tasic_subdata$study_id,

                        cell_type = tasic_subdata$primary_type,

fast_version=TRUE)

plotHeatmapPretrained(aurocs,cex=0.7)

从结果来看,训练集中BICCN的Lamp5和测试数据的Igtp和Smad3高度一致同源。 

上面的热图表明,所有Tasic细胞类型都可以与一个BICCN亚类相匹配。我们下面查看inhibitory neurons 的细胞是否在高分辨率细胞类型上能获得同样的结果。

aurocs <- MetaNeighborUS(trained_model=biccn_clusters,

                        dat = tasic_subdata,

                        study_id = tasic_subdata$study_id,

                        cell_type = tasic_subdata$primary_type,

fast_version=TRUE)

plotHeatmapPretrained(aurocs,cex=0.7)

因为BICCN的细胞类型过多,这个图就显得稍微复杂,我们也可以像前面一样,只显示最高hit的cell来显示。

best_hits<- MetaNeighborUS(trained_model=biccn_clusters,

                        dat = tasic_subdata,

                        study_id = tasic_subdata$study_id,

                        cell_type = tasic_subdata$primary_type,

fast_version=TRUE,

one_vs_best=TRUE)

上一篇下一篇

猜你喜欢

热点阅读