(21)聚类分析基础知识
所谓聚类分析,就是按照个体的特征将他们分类,并且在于让同一个类别内的个体之间具有较高的相似度,让不同类别之间具有较大的差异性。这样,研究人员就能根据不同类别的特征有针对性的进行分析,并制定出适用于不同类别的解决方案。
聚类分析主要应用在市场细、用户细分等领域。
如何将个体划分成不同的类别?
为了合理的进行聚类,需要采用适当的指标来衡量研究对象之间的联系紧密程度,常用的指标有“距离”和“相似系数”。假设将研究对象采用点表示,聚类分析时,将“距离”小的点或者“相关系数”较大的点归为一类,将“距离”大的点或“相关系数”小的点归为一类。
聚类分析的特点?
1)聚类结果是未知的。不同的聚类方法可能得到不同的分类结果,相同的聚类方法但是所分析的变量不同,也会得到不同的聚类结果。
2)对于聚类结果的合理性判断比较主观。只要类别内的相似性和类别间的差异性都能得到合理的解释和判断,就认识聚类结果是可行的。
常见应用场景?
零售研究中,刻画不同的用户或消费者生活形态以及特征;互联网中,通过用户浏览、消费行为来总结用户特征;金融研究中,根据用户金融行为和资产状况对用户进行分类;城市规划中,根据区域特征对城市分类......
聚类分析的步骤:
1)确定需要参加聚类分析的变量。即使用那些变量来进行分类。
2)对数据进行标准化处理。单位、数量级等
3)选择聚类方法和类别数目。即用什么聚类方法,分成几类。
4)分析聚类结果。
为什么要对数据进行标准化处理?
因为有事各个变量之间的变量值的数量级别差异较大,或者单位也不一样。例如一个是元,一个是万元,再或者数量级别差距太大都无法进行比较或者计算“距离”和“相似系数”等指标。只有通过标准化处理,消除变量间的量纲关系的影响,在统一标准下才能够进行比较或者计算“距离”和“相似系数”等指标。
聚类方法的分类
聚类方法主要有三种:
1)快速聚类:也称K均值聚类,他是按照一定的方法,选取一批聚类中心点,让个案向最近的聚类中心点聚集形成初始分类,然后按照最近距离原则调整不合理的分类,直到分类合理为止。
2)系统聚类:也称层次聚类,首先将参与聚类的个案(或变量)各视为一类,然后根据两个类别之间的距离或者相似性逐步合并,直到所有个案(或变量)合并为一个大类为止。
3)二阶聚类:也称两步聚类,这是随着人工智能的发展而发展起来的一种智能聚类方法。分成两个步骤:第一步骤是预聚类,就是根据定义的最大类别数对个案进行初步归类;第二步骤是正式聚类,就是对第一步骤得到的初步聚类进行在聚类并确定最终聚类结果,并且在这一步中,会根据一定的统计标准确定聚类的类别数。