网络数据挖掘 L6 聚类

2018-07-12 本文已影响0人 gb_QA_log

title: 网络数据挖掘 L6 聚类
date: 2017-04-12 18:35:28
categories: DataMining
mathjax: true
tags: [WebDataMining]

L6 Clustering

特征：

特征提取 feature Extraction
特征向量
特征空间

Metric 距离：

在使用欧氏距离的时候，二维是圆，三维是球..如此，用它来聚类的标准会倾向于圆/球等。

Paste_Image.png 因此当数据是

Paste_Image.png

聚类的结果并不好。

Euclidean space欧氏空间
- Position: x,y
- Similarity: =\sum_ix_iy_i
  - 内乘
- distance: d(x,y)=|x-y|=\sqrt()=
  - Induced norm导出范数|x-y|
- Similarity-Distance: $d(x,y)^2==+-2$

cluster 聚类

聚类是在无监督的情况下得到自然特征的方法。
本课介绍k-means 和 k-medians

k-means

算法：

假设要分为3类，随机在样本中选择3个点
每个样本计算到3个点的距离，把样本归类到最近的点所在的类
更新中心点：每个类的各个维度 $x_i,y_i,z_i...$ 的平均值
重复2步骤、3步骤，直到中心点的变化小于某个阈值，结束算法

优点：

简单好理解
样本自动归类
缺点：
手动选择类别数
所有的样本都会被强制分类
个别异常点太远了会导致平均值偏离，中心点偏离

k-medians

因为k-means异常点的敏感性，提出该改进算法
算法：

假设要分为3类，随机在样本中选择3个点
每个样本计算到3个点的距离，把样本归类到最近的点所在的类
更新中心点：每个类的每个维度如 $x_i$ 排序后的中位值，作为中心点该维度的坐标
重复2步骤、3步骤，直到中心点的变化小于某个阈值，结束算法

优点：解决异常点问题
缺点：大数据时候排序耗时（解决：sampling 从样本中随机选择小数量的sample）

Appendix

推荐一篇把聚类用于图像颜色更换的论文：Palette-based Photo Recoloring

上一篇下一篇

猜你喜欢

热点阅读