机器学习机器学习与模式识别Machine Learning & Data Analysis

【Machine Learning】从零开始,了解无监督学习的方

2015-05-13  本文已影响8177人  Jason_Yuan

目录###

1. 什么是无监督学习
2. 发现和无监督学习
3. 聚类分析


1. 什么是无监督学习

无监督学习没有教师,需要学习器自身形成(form)和评价(evaluate)概念。

科学是人类中无监督学习最好的例子,因为科学家没有教师的指点,他们提出假设来解释现象,并设计实验来验证假设。

hypothesis -> generality -> conclusion


2. 发现和无监督学习(Discovery and unsupervised learning)

2.1 Automated Mathematician(AM)

2.2 BACON

2.3 SCAVENGER


3. 聚类分析(Clustering analysis)

3.1 什么是聚类分析

Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).
-from wikipedia

3.2 相似性(similarity)的定义

相似性通常很难去定义

3.3 聚类在生活中的应用

类别对于人类如何分析和描述世界起了至关重要的作用,人类其实非常擅长做分类,一个小孩子就可以将熟悉的事物分为建筑、机动车、动物、植物.......

3.4 不同类型的Clustering

3.4.1 层次聚类 vs 划分聚类

被讨论的最多的区分不同聚类类型的依据就是看被划分好的这些clusters是嵌套的(nested)还是非嵌套的(untested),或者更通俗点说,是hierarchical还是partitional.

3.4.2 互斥聚类 vs 重叠聚类 vs 模糊聚类
3.4.3 完全聚类 vs 部分聚类

3.5不同类型的Cluster

在很多实际应用中,cluster的概念并没有一个很好的定义。为了更好的理解决定一个cluster由什么构成的困难性,我们在下图展示了同样的20个点,用三种不同的方法去把它们划分到不同的clusters。

The notion of cluster is important

上图阐明了其实一个cluster的定义不是精确的,固定不变的。对于cluster最好的定义依赖于数据的性质预期结果

聚类(Clustering)的目标是要找到一组有意义的对象(object)或者说cluster。 这里所说的有意义或者说有用,是针对数据分析的目标而言的。毫无悬念,在实际当中已经有一些不同的对于cluster的概念,被证明是有意义的,具体如下:

3.5.1 明显分离的(Well-Separated)

不同组中的任意两点之间的距离都大于组内任意两点之间的距离。明显分离的簇不必是球形的,可以具有任意形状。


Well-Seperated cluster
3.5.2 基于原型的(Prototype-Based /center-based clusters)

簇是对象的集合,其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近(或更加相似)。对于具有连续属性的数据,簇的原型通常是质心,即簇中所有点的平均值。这种簇倾向于呈球状。基于原型的聚类技术创建数据对象的单层划分。


Prototype-Based cluster
3.5.3 基于图的(Graph-Based)

如果数据用图表示,其中节点是对象,而边代表对象之间的联系,则簇可以定义为连通分支,即互相连通但不与组外对象连通的对象组。当簇不规则或缠绕时,簇的这种定义是有用的。但是,当数据具有噪声时就可能出现问题。也存在其他类型的基于图的簇。一种方法是定义簇为团,即图中相互之间完全连接的节点的集合。


Graph-Based cluster
3.5.4 基于密度的(Density-Based)

簇是对象的稠密区域,被低密度的区域环绕。当簇不规则或互相盘绕,并且有噪声和离群点时,常常使用基于密度的簇定义。


Desity-Based cluster
3.5.5 共同性质的/概念簇(Shared-Property /Conceptual Clusters)

把簇定义为有某种共同性质的对象的集合。发现这样的簇的过程称作概念聚类。


Conceptual Cluster

3.6 K-means 简介


结语和参考文献

  1. Cluster Analysis: Basic Concepts and Algorithms
  2. Clustering - ccsu
  3. Clustering - Matteo Pardo
  4. Data Clustering: K-means and Hierarchical Clustering
  5. Cluster analysis wikipedia
  6. 聚类算法总结
  7. 文本聚类算法介绍
  8. 漫谈 Clustering (1): k-means
  9. 聚类分析
  10. 聚类算法:K-means
  11. Artificial Intelligence,6th Edition
  12. 数据挖掘技术(四)——聚类
上一篇下一篇

猜你喜欢

热点阅读