Design of computationally effici

2019-01-13  本文已影响0人  xiongraorao

Efficent density-based clustering algorightms

title: Design of computationally efficient density-based clustering algorithms ---- pdf download

code: None

abstract

本文针对基于密度的聚类方法,提出了优化策略,能够大幅度降低计算复杂度。针对DBSCAN聚类策略,首先通过快速融合策略来降低初始化阶段的计算复杂度,然后考虑到相似性度量时候的相关系数,通过相关性来判断两个点是否属于同一个类。

proposed algorithm

DBSCAN算法一共分为两步:初始化核心对象合并小的类两个步骤,该方法和传统的DBSCAN的方法有所不同,传统的DBSCAN中提到的两阶段方法如下:

针对DBSCAN的方法,本文在第二步的时候,没有依次判断核心对象的所有密度直达的点是否是核心对象,而是在第一步计算完所有的核心对象之后,得到每个核心对象的small cluster之后,对这些small cluster进行合并,并且采用了一种很巧妙的方法极大的降低了计算复杂度。

合并策略如下

(1)基于距离度量的快速合并算法

对于两个cluster A 和 B,两个cluster的距离计算如下:

d(C_1, C_2) = min\{d(y,z)\} ----(1)

其中y和z分别是C_1C_2 的边界点,因此(1)的计算复杂度应为N(C_1) * N(C_2)

image.png

加速策略:

但是考虑到每个cluster在高维空间是一个球形,因此我们先计算cluster A 和 cluster B的点,分别为A_0B_0,如果A_0B_0之前的距离大于3*\epsilon, 则A和B的最小点的距离必然大于\epsilon,根据这个条件,我们可以判断两个类是否进行合并。

image.png image.png

(2)基于相关系数的度量

对于两个cluster A 和 B,两个cluster的距离通过皮尔逊相关系数来确定,相关系数的值为-1到1之间,计算如下:

image.png

\rho(x,y)的值具有如下两个特性:

该种方法要求在DBSCAN的第一步的寻找核心对象的时候,采用相关系数来判断一个类是否为核心对象:

image.png

因此,两个cluster是否合并,取决于两个cluster的最大相关系数是否大于给定的阈值,公式如下:

image.png

加速策略:

采用相关系数来替代空间密度的方法,最后聚的类不能采用球形那种判断策略,因此采用两个cluster的均值来代替。

image.png

experiment

上一篇 下一篇

猜你喜欢

热点阅读