网络数据挖掘 L6 聚类

2018-07-12  本文已影响0人  gb_QA_log

title: 网络数据挖掘 L6 聚类
date: 2017-04-12 18:35:28
categories: DataMining
mathjax: true
tags: [WebDataMining]


L6 Clustering

特征:

Metric 距离:

在使用欧氏距离的时候,二维是圆,三维是球..如此,用它来聚类的标准会倾向于圆/球等。 Paste_Image.png 因此当数据是 Paste_Image.png

聚类的结果并不好。

cluster 聚类

聚类是在无监督的情况下得到自然特征的方法。
本课介绍k-means 和 k-medians

k-means

算法:

  1. 假设要分为3类,随机在样本中选择3个点
  2. 每个样本计算到3个点的距离,把样本归类到最近的点所在的类
  3. 更新中心点:每个类的各个维度x_i,y_i,z_i...的平均值
  4. 重复2步骤、3步骤,直到中心点的变化小于某个阈值,结束算法

优点:

k-medians

因为k-means异常点的敏感性,提出该改进算法
算法:

  1. 假设要分为3类,随机在样本中选择3个点
  2. 每个样本计算到3个点的距离,把样本归类到最近的点所在的类
  3. 更新中心点:每个类的每个维度如x_i排序后的中位值,作为中心点该维度的坐标
  4. 重复2步骤、3步骤,直到中心点的变化小于某个阈值,结束算法

优点: 解决异常点问题
缺点:大数据时候排序耗时(解决:sampling 从样本中随机选择小数量的sample)

Appendix

推荐一篇把聚类用于图像颜色更换的论文:Palette-based Photo Recoloring

上一篇 下一篇

猜你喜欢

热点阅读