Single Cell RNA-seq

【机器学习在生物信息中的应用(二)】SC3:单细胞表达谱的无监督

2019-03-15  本文已影响79人  UnderStorm

该聚类方法名为SC3(Single-Cell Consensus Clustering)

该方法本质上就是K-means聚类,不过在执行K-means聚类的前后进行了一些特殊的操作:

  • k-means聚类前:进行了数据预处理,即特征的构造,称为特征工程,该方法中是对输入的原始特征空间进行PCA变换或拉普拉斯矩阵变换,对变换后的新特征矩阵逐渐增加提取的主成分数,来构造一系列新特征;
  • k-means聚类后:特征工程构造出来的一系列新特征集合,基于这些新特征集合通过k-means聚类能得到一系列不同的聚类结果,尝试对这些聚类结果总结出consensus clustering

本人比较好奇的地方是:怎么从一系列不同的聚类结果中总结出consensus clustering?

使用CSPA算法(cluster-based similarity partitioning algorithm)

(1)对每一个聚类结果按照以下方法构造二值相似度矩阵S:如果两个样本i和j在该聚类结果中被聚到同一个集合中,则它们之间的相似度为1,在二值相似度矩阵中对应的值 Si,j = 1,否则Si,j = 0;

(2)对所有的聚类结果的二值相似度矩阵S取平均,得到consensus matrix;

(3)基于consensus matrix进行层次聚类,得到最终的consensus clustering;


参考资料:

Kiselev, V. Y. et al. SC3: consensus clustering of single-cell RNA-seq data[J]. Nat. Methods 14, 483–486 (2017).

上一篇下一篇

猜你喜欢

热点阅读