无监督学习之K均值算法
前言
在之前的学习中,已经了解学习了一系列与监督学习有关的机器学习算法,本篇文章,将详细讲述与无监督学习相关的机器学习算法,所谓无监督学习就是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习,即也就是自动的找到不同的类型,将不同的个体归为不同的类型,也就是聚类问题。详细介绍如下所示。
K均值(K-Means)算法
在无监督学习中,我们希望将一系列未加任何标记的数据能够通过聚类算法自动地分成有紧密关系的子集或者簇。其中,K均值算法是应用最为广泛的算法之一。
- 算法原理
K均值算法的算法原理如下所示:
假设有一组训练集,在训练集中随机生成两个聚类中心(如图中X所示,之所以生成两个聚类中心是因为希望将数据分为两类)。聚类算法是一个迭代算法,主要可以分为以下两步:- 簇分配:
先随机选取K个对象(本例中选取两个对象)作为初始的聚类中心,然后计算每个训练样本与各个聚类中心之间的距离,把每个训练样本分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。 - 移动聚类中心:
一旦全部训练样本都被分配了,每个聚类的聚类中心会根据聚类中已分配的对象被重新计算。即也就是聚类中心的位置会发生变化。
- 簇分配:
以上两个步骤将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:
1). 没有(或最小数目)对象被重新分配给不同的聚类。
2). 没有(或最小数目)聚类中心再发生变化。
3). 误差平方和局部最小。
其过程如下图所示:
- 算法表示
对于K均值算法的输入有如下约定:
用K表示簇的个数,用表示训练样本数,,是一个维向量。
首先,随机初始化个聚类中心,记作,然后,重复一下步骤,直到满足终止条件:
已分配给第个簇的训练样本的平均值
优化目标
与监督学习相关算法一样,K均值算法也有优化目标函数或者最小化代价函数。K均值优化目标函数一方面可以帮助我们对算法进行调试,确保算法正常运行,另一方面,可以用优化目标函数帮助K均值算法找到更好的簇,避免局部最优解。
对于优化目标函数有如下标记:
表示当前样本所属的簇的索引
表示第个聚类中心的位置。
表示所属的簇的聚类中心。
优化目标函数可以用以下公式表示:
随机初始化
在K均值算法中,有几种方法可以实现聚类中心的初始化,但比较好的一种实现方式如下所示:
-
假设有个聚类中心,其中(训练样本数)。
-
随机选取个训练样本。
-
设定等于选定的个训练样本。
在K均值算法的实际应用过程中,需要多次运行K均值算法并且每次都要随机初始化聚类中心,最后,得到一系列聚类中心和聚类结果。用得到的聚类中心和聚类结果计算能够使得代价函数最小的参数。
选择聚类中心的数量
选择聚类中心的数量并不容易,因为很难清楚数据应该分为几类。在选择聚类中心数量的问题上,有一个常用方法被称作“肘部法则”如下图所示:
选择不同的聚类中心数量,会得到不同的代价函数的值。如上曲线所示,整个曲线如同一条胳膊,时,曲线变化剧烈, 时逐渐趋于平稳,是一个很明显的分界点,所以可以选择聚类中心的数量为3。
但是,通常情况下很难得到如上所述的理想曲线,通常得到的曲线如下所示,很难确定分界点,所以“肘部法则”并不是一个完美的解决方案。
正如算法的设计是为了解决实际问题,选择聚类中心的数量也是为了特定的后续目的,那么决定聚类数量更好的方法是评估不同的聚类数量是否能够更好的解决后续目的,根据解决问题的实际效果选择最为合适的聚类数量。