（21）聚类分析基础知识

2019-04-03 本文已影响1人职场办公技能500强企业实战

所谓聚类分析，就是按照个体的特征将他们分类，并且在于让同一个类别内的个体之间具有较高的相似度，让不同类别之间具有较大的差异性。这样，研究人员就能根据不同类别的特征有针对性的进行分析，并制定出适用于不同类别的解决方案。

聚类分析主要应用在市场细、用户细分等领域。

如何将个体划分成不同的类别？

为了合理的进行聚类，需要采用适当的指标来衡量研究对象之间的联系紧密程度，常用的指标有“距离”和“相似系数”。假设将研究对象采用点表示，聚类分析时，将“距离”小的点或者“相关系数”较大的点归为一类，将“距离”大的点或“相关系数”小的点归为一类。

聚类分析的特点？

1）聚类结果是未知的。不同的聚类方法可能得到不同的分类结果，相同的聚类方法但是所分析的变量不同，也会得到不同的聚类结果。

2）对于聚类结果的合理性判断比较主观。只要类别内的相似性和类别间的差异性都能得到合理的解释和判断，就认识聚类结果是可行的。

常见应用场景？

零售研究中，刻画不同的用户或消费者生活形态以及特征；互联网中，通过用户浏览、消费行为来总结用户特征；金融研究中，根据用户金融行为和资产状况对用户进行分类；城市规划中，根据区域特征对城市分类......

聚类分析的步骤：

1）确定需要参加聚类分析的变量。即使用那些变量来进行分类。

2）对数据进行标准化处理。单位、数量级等

3）选择聚类方法和类别数目。即用什么聚类方法，分成几类。

4）分析聚类结果。

为什么要对数据进行标准化处理？

因为有事各个变量之间的变量值的数量级别差异较大，或者单位也不一样。例如一个是元，一个是万元，再或者数量级别差距太大都无法进行比较或者计算“距离”和“相似系数”等指标。只有通过标准化处理，消除变量间的量纲关系的影响，在统一标准下才能够进行比较或者计算“距离”和“相似系数”等指标。

聚类方法的分类

聚类方法主要有三种：

1）快速聚类：也称K均值聚类，他是按照一定的方法，选取一批聚类中心点，让个案向最近的聚类中心点聚集形成初始分类，然后按照最近距离原则调整不合理的分类，直到分类合理为止。

2）系统聚类：也称层次聚类，首先将参与聚类的个案（或变量）各视为一类，然后根据两个类别之间的距离或者相似性逐步合并，直到所有个案（或变量）合并为一个大类为止。

3）二阶聚类：也称两步聚类，这是随着人工智能的发展而发展起来的一种智能聚类方法。分成两个步骤：第一步骤是预聚类，就是根据定义的最大类别数对个案进行初步归类；第二步骤是正式聚类，就是对第一步骤得到的初步聚类进行在聚类并确定最终聚类结果，并且在这一步中，会根据一定的统计标准确定聚类的类别数。