K-Means（三）核k-均值算法

2018-10-11 本文已影响197人 shijiatongxue

标准的k-均值算法在处理线性可分的数据集时会表现出很好的效果，线性可分表现在数据集上中就是：从属同一个类别的数据点之间是紧致的，而不同的类别之间是分散的。

挑战：当数据集中包含的数据点所构成的簇在形状和密度上都有很大差异时，标准k-均值算法就无法发挥它的效果了。

核方法是，通过一个映射将数据集进行转换，转换成标准k-均值算法可以接收的数据样式，然后再用聚类算法进行处理。这就是核k-均值算法（kernel k-means）。

主要思想：通过一个非线性映射，将输入空间中的数据点映射到一个高维特征空间中，并选取合适的核函数代替非线性映射的内积，在特征空间进行聚类分析。这种将数据映射到高维空间的方法可以突出样本类别之间的特征差异，使得样本在核空间线性可分（或近似线性可分）。

核k-均值算法：

输入：所有数据点A，聚类个数k

输出：k个聚类中心点

1：输入数据通过核函数映射到高维空间得到矩阵B

2：对B进行标准k-均值聚类