聚类分析与R使用Part1-聚类分析介绍

2022-12-23  本文已影响0人  3between7

Q型聚类,使用的统计量是距离,包括如下三种常见的距离:

欧式距离:d_{ij}(2)=[\sum_{k=1}^p(x_{ik}-x_{jk})^2]^{\frac{1}{2}}
马氏距离:d_{ij}(M)=(x_i-x_j)'{\sum}^{-1}(x_i-x_j)
兰氏距离:d_{ij}(LW)=\frac{1}{p}\sum_{k=1}^p\frac{|x_{ik}-x{jk}|}{|x_{ik}+x{jk}|},兰氏距离是绝对值距离的一个扩展。

R型聚类,也就是针对变量进行聚类,使用的是相关系数作为统计量:

相关系数 r_{ij}=\frac{\sum_{ij}(x_i-\overline x)}{\sqrt{\sum_i(x_i-\overline x)^2\sum_j(y_j-\overline y)^2}}

dist(X,method='euclidean',diag=FALSE,upper=FALSE,p=2)

  • x为数据矩阵,data.frame;
  • method包括“euclidean","maximum",“manhattan“,“canberra”,“binary” or "minkowski",默认为欧式距离;
  • diag是是否包含对角元素,默认为无;
  • upper为是否需要上三角,默认为下三角矩阵;
  • p为Minkowski距离的幂次,默认为p=2(欧式距离)。

(2)相关系数矩阵使用cor(X)

上一篇 下一篇

猜你喜欢

热点阅读