k均值聚类分析在客户分类中的应用

2019-12-15 本文已影响0人开山熊

客户分类可以对客户的消费行为进行分析，也可以对顾客的消费心理进行分析。医院可以针对不同行为模式的客户提供不同的产品内容，针对不同消费心理的客户提供不同的促销手段等。客户分类也是其他客户分析的基础，在分类后的数据中进行挖掘更有针对性，可以得到更有意义的结果。

k均值聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

一、数据提取

根据RFM模型提供的思路，我们将提取三个维度的数据：“最近一次消费”、“消费频率”、“消费金额”。

R（Recency）最近一次消费：客户最近一次交易时间的间隔天数。R值越大，表示客户交易发生的日期越久，反之则表示客户交易发生的日期越近。

F（Frequency）消费频率：客户在最近一段时间内交易的次数。F值越大，表示客户交易越频繁，反之则表示客户交易不够活跃。

M（Monetary）消费金额：客户在最近一段时间内交易的金额。M值越大，表示客户价值越高，反之则表示客户价值越低。

根据以上思路提取的数据如下：

二、建立模型

由于k均值聚类算法需要提供k值，也就是聚类的个数。因此我们在建立模型之前必须先确定什么样的k值才是最适合的。下面将引入肘部法来判断k值。

肘部法则的计算原理是成本函数，成本函数是类别畸变程度之和，每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和，若类内部的成员彼此间越紧凑则类的畸变程度越小，反之，若类内部的成员彼此间越分散则类的畸变程度越大。在选择类别数量上，肘部法则会把不同值的成本函数值画出来。随着值的增大，平均畸变程度会减小；每个类包含的样本数会减少，于是样本离其重心会更近。但是，随着值继续增大，平均畸变程度的改善效果会不断减低。值增大过程中，畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。

以下我们使用Python来实现肘部法: