R 统计学和算法

最浅显易懂的 K-means 聚类原理

2020-04-16  本文已影响0人  热衷组培的二货潜

<meta name="source" content="lake">

图片来源twitter:

<u>https://twitter.com/allison_horst/status/1250477975130140672</u>

image

更多的统计学漫画:
https://github.com/allisonhorst/stats-illustrations

K-means 指的是根据最近的聚类中心将每个观测值分配给 k 个聚类中的一个。

image

1、指定聚类的数目

image 2、这k个中心被随机放置在你的空间里 image 3、每一次观测都被临时“分配”到其最近(比如:欧几里得距离)的中心。 image 4、 然后基于分配给该类的所有观测来计算每个类的中心,重新得到一个中心 image 重新得到一个中心后,又将病毒重新分配到所属最近的中心中。 image

5、根据重新计算得到新的中心观察值又被重新指定到了不同的类。

注意 :观测值位置是不会动的,只是变的是分给不同的类 image

6、但是现在已经重新分配了观测值,中心需要再次移动[从更新的类重新计算中心]

7、再一次,病毒 又得重新分配到距离最近的中心 image emm,每一个类的中心又重新计算。。意味着观测值有将被重新归属到最近的类中。 image 。。。计算类中心→分配观测值到最近的中心→再计算类的中心→再分配→再计算→再分配......一直持续到没有任何东西移动或重新分配为止! image 最后,这意味着迭代完成,并且每个观测值被分配到其最终类。 image
上一篇下一篇

猜你喜欢

热点阅读