无监督学习之K均值算法

2019-03-06  本文已影响0人  此间不留白

前言

在之前的学习中,已经了解学习了一系列与监督学习有关的机器学习算法,本篇文章,将详细讲述与无监督学习相关的机器学习算法,所谓无监督学习就是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习,即也就是自动的找到不同的类型,将不同的个体归为不同的类型,也就是聚类问题。详细介绍如下所示。

K均值(K-Means)算法

在无监督学习中,我们希望将一系列未加任何标记的数据能够通过聚类算法自动地分成有紧密关系的子集或者簇。其中,K均值算法是应用最为广泛的算法之一。

以上两个步骤将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:
1). 没有(或最小数目)对象被重新分配给不同的聚类。
2). 没有(或最小数目)聚类中心再发生变化。
3). 误差平方和局部最小。
其过程如下图所示:


\ \}

优化目标

与监督学习相关算法一样,K均值算法也有优化目标函数或者最小化代价函数。K均值优化目标函数一方面可以帮助我们对算法进行调试,确保算法正常运行,另一方面,可以用优化目标函数帮助K均值算法找到更好的簇,避免局部最优解。
对于优化目标函数有如下标记:
c^{(i)}:表示当前样本x^{(i)}所属的簇的索引
\mu_k:表示第k个聚类中心的位置。
\mu_{c^{(i)}}:表示x^{(i)}所属的簇的聚类中心。
优化目标函数可以用以下公式表示:
J(c^{(1)}……c^{(m)},\mu_{1}……\mu_{K}) = \frac{1}{m}\sum_{i=1}^{m}\| x^{(i)} - u_{c^{(i)}} \|^2

随机初始化

在K均值算法中,有几种方法可以实现聚类中心的初始化,但比较好的一种实现方式如下所示:

  1. 假设有K个聚类中心,其中K<m(训练样本数)。

  2. 随机选取K个训练样本。

  3. 设定\mu_1……\mu_k等于选定的K个训练样本。

在K均值算法的实际应用过程中,需要多次运行K均值算法并且每次都要随机初始化聚类中心,最后,得到一系列聚类中心和聚类结果。用得到的聚类中心和聚类结果计算能够使得代价函数J最小的参数。

选择聚类中心的数量

选择聚类中心的数量并不容易,因为很难清楚数据应该分为几类。在选择聚类中心数量的问题上,有一个常用方法被称作“肘部法则”如下图所示:


选择不同的聚类中心数量,会得到不同的代价函数的值。如上曲线所示,整个曲线如同一条胳膊,K=1,2时,曲线变化剧烈,K \geq3 时逐渐趋于平稳,K=3是一个很明显的分界点,所以可以选择聚类中心的数量为3。
但是,通常情况下很难得到如上所述的理想曲线,通常得到的曲线如下所示,很难确定分界点,所以“肘部法则”并不是一个完美的解决方案。

正如算法的设计是为了解决实际问题,选择聚类中心的数量也是为了特定的后续目的,那么决定聚类数量更好的方法是评估不同的聚类数量是否能够更好的解决后续目的,根据解决问题的实际效果选择最为合适的聚类数量。

上一篇下一篇

猜你喜欢

热点阅读