对于这类算法,两个关键点是如何找类型数,以及如何找确定初始点。
找类型数我们是通过类型数对于组件距离加和的曲线变化率,来确定的。初始点为了避免初始陷阱,我们是通过一种算法。
K均值的步骤如下:
1、确定类型数
2、随机抽取K个点(可以不是数据点)
3、依据欧式距离判断所属类别(中心点连线画出中位线)
4、找出没类的中心点,重新定义类别,如果有数据点重定了类型,就继续第四步,如果所有数据对于新的中心点都划分正确就结束。
最后,我们可以通过画出类型数与组间距离的二维图来确定合适的类型数。
其实,K均值说白了就是将数据的特征分布可视化,通过欧式距离解决人眼无法区分的类别分类,将特征相近的分为一类。
1、K平均聚类法原理

用数字语言代替直觉.PNG

结束.PNG

刷新类别.PNG

继续划分.PNG

重新划分.PNG

找到新的中心点.PNG

垂直平分线确定分类.PNG

选择随机初始点.PNG

确定K.PNG

K-Means步骤.PNG

K-Means是什么.PNG
2、K-Means随机初始化陷阱

updatedforsolving.PNG

imeffectatclassify.PNG

wrongrandompoint.PNG

problempoint.PNG

correctrandompoint.PNG
3、K-Means选择类的个数

theelbowmethod(速率).PNG

functionWCSSwithnumberofcluster.PNG

WCSSattwo.PNG

WCSSatone.PNG

WCSSatthree.PNG

withinclustersquaredsum.PNG

bestatintuitive.PNG