最浅显易懂的 K-means 聚类原理

2020-04-16 本文已影响0人热衷组培的二货潜

图片来源twitter：

image

K-means 指的是根据最近的聚类中心将每个观测值分配给 k 个聚类中的一个。

image

1、指定聚类的数目

image 2、这k个中心被随机放置在你的空间里

image 3、每一次观测都被临时“分配”到其最近（比如：欧几里得距离）的中心。

image 4、然后基于分配给该类的所有观测来计算每个类的中心，重新得到一个中心

image 重新得到一个中心后，又将病毒重新分配到所属最近的中心中。

image

5、根据重新计算得到新的中心观察值又被重新指定到了不同的类。

注意：观测值位置是不会动的，只是变的是分给不同的类

image

6、但是现在已经重新分配了观测值，中心需要再次移动[从更新的类重新计算中心]

7、再一次，病毒又得重新分配到距离最近的中心

image emm，每一个类的中心又重新计算。。意味着观测值有将被重新归属到最近的类中。

image 。。。计算类中心→分配观测值到最近的中心→再计算类的中心→再分配→再计算→再分配......一直持续到没有任何东西移动或重新分配为止！

image 最后，这意味着迭代完成，并且每个观测值被分配到其最终类。

image