一些聚类问题

2020-02-05  本文已影响0人  胡拉哥

假设我们是一家大型零售公司, 客户分布在全国各地. 为了方便管理和提供更好的服务, 我们需要把客户按照地理位置进行分类, 例如按城市或街道的维度把客户划分成 区块, 每个区块是客户的集合. 主要考虑如下因素:

下文总结几个可能需要求解的聚类问题.

问题列表

1. 等量的聚类问题(Equal-size clustering or balanced clustering)

给定点集X=\{\boldsymbol{x_1}, \boldsymbol{x_2}, ..., \boldsymbol{x_n}\}, 其中每个点是一个d维实向量. 给定常数kn \mod k =0. 我们把X划分(Partition)成k个"等量"的子集S_1, S_2, ..., S_k. 令\boldsymbol{\mu_i}代表S_i的均值, 我们的目标是:
\min \sum_{i=1}^k\sum_{\boldsymbol{x}\in S_i}||\boldsymbol{x} - \boldsymbol{\mu_i}||^2.

2. 限容的聚类问题(Size-constrained clustering)

给定点集X=\{\boldsymbol{x_1}, \boldsymbol{x_2}, ..., \boldsymbol{x_n}\}, 其中每个点是一个d维实向量. 给定常数LB, UBLB\leq UB. 我们把X划分(Partition)成k个"满足容量限制"的子集S_1, S_2, ..., S_k, 即LB \leq |S_i|\leq UB, \forall i. (注意: k不是输入参数.) 令\boldsymbol{\mu_i}代表S_i的均值, 我们的目标是:
\min \sum_{i=1}^k\sum_{\boldsymbol{x}\in S_i}||\boldsymbol{x} - \boldsymbol{\mu_i}||^2.

3. 限权的聚类问题(Weight-constrained clustering)

给定点集X=\{\boldsymbol{x_1}, \boldsymbol{x_2}, ..., \boldsymbol{x_n}\}和权重w_1, w_2, ..., w_n, 其中每个点是一个d维实向量. 给定常数LB, UBLB\leq UB. 我们把X划分(Partition)成k个"满足容量限制"的子集S_1, S_2, ..., S_k, 即LB \leq w(S_i)\leq UB, \forall i, 其中w(S_i)代表S_i对应的权重之和. (注意: k不是输入参数.) 令\boldsymbol{\mu_i}代表S_i的均值, 我们的目标是:
\min \sum_{i=1}^k\sum_{\boldsymbol{x}\in S_i}||\boldsymbol{x} - \boldsymbol{\mu_i}||^2.

说明

1. 计算复杂性

2. 优化目标

参考文献


  1. M. Garey, D. Johnson, H. Witsenhausen. The complexity of the generalized LIoyd - Max problem. IEEE Transactions on Information Theory. 28(2): 255-256, 1982.

  2. M. Mahajan, P. Nimbhorkar and K.Varadarajan. The planar k-means problem is NP-hard. Lecture Notes in Computer Science. 5431. pp.274-285, 2009.

上一篇下一篇

猜你喜欢

热点阅读