聚类算法(一)——简介

2019-08-21  本文已影响0人  不是Blues的布鲁斯

描述

聚类就是将数据集划分为由若干相似对象组成的多个组或簇的过程,使得同一组中对象的相似度最大化,不同组中对象间的相似度最小化。

分类

评价方法

聚类性能度量亦称有效性指标,分为:外部指标,聚类完成后将聚类结果与某个参考模型进行比较;内部指标,直接考察聚类结果而不利用任何参考模型。

外部指标

Precision,Recall,F-measure

RI

内部指标

计算两个簇的簇间最短距离除以任意簇中的最大距离,DI越大说明聚类效果越好。同样对环状分布的数据效果不好,且对离散点的聚类测评很高。

一个簇的误差平方和即簇内各点到质心欧式距离的平方和,此方法对离散点的聚类测评很高


SSE

Python 聚类项目

设计一个Python聚类小项目,项目包括以下四个模块,模块阐述如图所示,该项目可调用多种聚类算法,并比较结果


项目架构

Ref:

机器学习之聚类概述及评价指标

上一篇下一篇

猜你喜欢

热点阅读