机器学习算法

一文读懂 聚类特征选择

2019-08-16  本文已影响0人  张小甜甜

《Feature Selection for Clustering:A Review》

0.1 introduction介绍

0.1.1 Data Clustering 聚类

0.1.2 Feature Selection Models 特征选择

0.1.3 Feature Selection for Clustering 聚类的特征选择


受这些事实的启发,提出了很多不同的聚类技术,通过利用特征选择方法消除不相关和冗余的特征,同时保留相关特征,以提高聚类效率和质量。后面我们将描述基于域的不同的特征选择聚类(FSC)方法。介绍:传统FSC,文本数据中的FSC,流数据中的FSC和FSC链接数据。

与监督学习的特征选择类似,用于聚类的特征选择也被分类为Filter[15]、Wrapper[55]、Hybrid[19]。

0.1.3.1 Filter Model
0.1.3.2 Wrapper Mode
0.1.3.3 Hybrid Model

0.2 Feature Selection for Clustering 聚类的特征选择

一些算法处理文本数据,一些算法处理流数据。还有一些算法能够处理不同类型的数据。在本节中,我们将讨论一下算法以及它们可以处理的数据类型。

0.2.1 Algorithms for Generic Data 通用数据算法

能够处理通用数据集的聚类特征选择

0.2.1.1 Spectral Feature Selection (SPEC)谱特征选择

SPEC[80]既可以监督也可以无监督学习,这里作为Filter模型 无监督 特征选择方法。

0.2.1.2 Laplacian Score (LS)拉普拉斯分数
如果将SPEC 中 image

替换为:


image
则LS拉普拉斯分数是SPEC的一个特殊的案例。

LS在数据大小方面非常有效。与SPEC相似,LS中最耗时的是构造相似矩阵s。该算法的优点是既能处理带标记的数据,又能处理无标记的数据。

0.2.1.3 Feature Selection for Sparse Clustering稀疏聚类特征选择

[71]用Lasso和L_1范数作为特征选择方法嵌入在聚类过程中。特征选择的数量L使用gap statistics选择,类似于[67]中的选择聚类数量。

0.2.1.4 Localized Feature Selection Based on Scatter Separability(LFSBSS) 基于离散分离性的局部特征选择
0.2.1.5 Multi-Cluster Feature Selection (MCFS)
0.2.1.6 Feature Weighting k-means

0.2.2 Algorithms for Text Data

0.2.2.1 Term Frequency (TF)
0.2.2.2 Inverse Document Frequency (IDF)
0.2.2.3 Term Frequency-Inverse Document Frequency (TF-IDF)
0.2.2.4 Chi Square statistic
0.2.2.5 Frequent Term-Based Text Clustering
0.2.2.6 Frequent Term Sequence

0.2.3 Algorithms for Streaming Data

0.2.3.1 Text Stream Clustering Based on Adaptive Feature Selection (TSC-AFS)
0.2.3.2 High-dimensional Projected Stream Clustering (HPStream)

0.2.4 Algorithms for Linked Data

0.2.4.1 Challenges and Opportunities
0.2.4.2 LUFS: An Unsupervised Feature Selection Framework for Linked Data
0.2.4.3 Conclusion and Future Work for Linked Data

0.3 Discussions and Challenges

0.3.1 The Chicken or the Egg Dilemma

0.3.2 Model Selection: K and l

0.3.4 Stability

Bibliography

上一篇 下一篇

猜你喜欢

热点阅读