大数据,机器学习,人工智能程序员自然语言处理 (让机器更懂你)

K 均值聚类

2019-03-27  本文已影响14人  dreampai

通过迭代方式寻找 K 个簇的一种划分方案,使得聚类结果对应的代价函数最小。

1、缺点

2、算法调优

K 值选择方法:

3、算法改进

K-means++

已经选取了 n(0<n<k) 个初始聚类中心,距离当前 n 个聚类中心越远的点会有更高的概率被选为第 n+1 个聚类中心。在选取第一个聚类中心(n=1)时同样通过随机的方法。

ISODATA

当 K 值的大小不确定时,可以使用 ISODATA 算法。
ISODATA 的全称是迭代自组织数据分析法。当属于某个类别的样本数过少,把该类别去除;当属于某个类别的样本数过多、分散度较大时,把该类分为两个子类别。在 K-means 基础上增加两个操作,一是分裂操作,对应着增加聚类中心数;二是合并操作,对应着减少聚类中心数。

超参数设定:

上一篇 下一篇

猜你喜欢

热点阅读