百面机器学习|学习笔记

百面机器学习|第五章非监督学习知识点

2019-01-25  本文已影响10人  蓝白绛

前言

如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。

第五章 非监督学习

引导语

非监督学习期望机器通过学习找到数据中存在的某种共性特征或结构,亦或是数据之前存在的某种关联
非监督学习主要包含两大类学习方法:数据聚类特征变量关联。其中,聚类算法往往通过多次迭代来找到数据的最优分割,而特征变量关联则是利用各种相关性分析方法来找到变量之间的关系

1、K均值聚类

  1. K均值聚类的基本思想是,通过迭代方式寻找K个簇(Cluster)的一种划分方案,使得聚类结果对应的代价函数最小。特别的,代价函数可以定义为各个样本距离所属簇中心点的误差平方和J(c,\mu)=\sum_{i=1}^{M}||x_i-\mu_{c_i}||^2其中x_i代表第i个样本,c_ix_i所属于的簇,\mu_{c_i}代表簇对应的中心点,M是样本总数。
  2. K均值聚类算法步骤:
  1. K均值的优缺点:
  1. K均值算法调优的方法:
  1. K均值算法的改进模型:
  1. K均值的收敛性:K均值的迭代算法实际上是一种EM算法(Expectation-Maximization algorithm)。EM算法只能保证收敛到局部最优解

2、高斯混合模型

  1. 高斯混合模型(Gaussian Mixed Model,GMM)也是一种常见的聚类算法,与K-means类似,都使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布的,当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。理论上,高斯混合模型可以拟合出任意类型的分布
  2. 高斯混合模型的核心思想是,假设数据可以看作从多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值\mu_i方差\Sigma_i,此外,每个分模型都还有一个参数\pi_i,可以理解为权重或生成数据的概率。高斯混合模型公式如下:p(x)=\sum_{i=1}^K\pi_iN(x|\mu_i,\Sigma_i)
  3. 高斯混合模型是一个生成式模型
  4. 求解高斯混合模型的参数可以用EM算法框架,先固定一个变量使整体函数变为凸优化函数,求导得到最值,然后利用最优参数更新被固定的变量,进入下一个循环。也就是说每次循环时,先固定当前的高斯分布不变,获得每个数据点由各个高斯分布生成的概率。然后固定该生成概率不变,根据数据点的生成概率,获得一组更佳的高斯分布。
  5. 高斯混合模型与K均值算法:
    相同点:
    (1) 都是聚类算法;
    (2) 都需要指定K值;
    (3) 都用EM算法来求解;
    (4) 往往只能收敛于局部最优。
    高斯混合模型的优点:
    (1) 可以给出一个样本属于某类的概率是多少;
    (2) 不仅用于聚类,还可以用于概率密度估计;
    (3) 可以用于生成新的样本点。

3、自组织映射神经网络

  1. 自组织映射神经网络(Self-Organizing Map,SOM)是无监督学习方法中的一类重要方法,可以用作聚类高维可视化数据压缩特征提取等多种用途。
  2. 自组织神经网络本质上是一个两层的神经网络,包括输入层和输出层(竞争层)。输入层模拟感知外界输入信息的视网膜,输出层模拟做出相应的大脑皮层。输出层中神经网的个数通常是聚类的个数。
    训练时采用“竞争学习”的方式,每个输入样例在输出层中找到一个最匹配的节点,成为激活节点;紧接着用梯度下降法更新激活节点的参数;同时,激活节点临近的点也根据他们距离激活节点的远近适当地更新参数(模拟神经细胞的侧抑制现象,越远更新程度越打折扣,但更远的则表现弱激励作用)。这种竞争可以通过神经元之间的横向抑制连接(负反馈路径)来实现。
    5-3 自组织映射神经网络常见网络结构
  3. 自组织映射神经网络的自组织学习过程可以归纳为以下几个子过程:
    (1) 初始化:所有连接权重都用小的随机值初始化。
    (2) 竞争:神经元计算每个输入模式各自的判别函数值,并宣布具有最小判别函数值的特定神经元为胜利者。
    (3) 合作:获胜神经元决定了兴奋神经元拓扑领域的空间位置。确定激活节点后,更新节点,距离越远,更新程度越打折扣,但更远的则表现弱激励作用。
    (4) 适应:适当调整相关兴奋神经元的连接权重,使得获胜神经元对相似输入模式的后续应用的响应增强。
    (5) 迭代:回到(2)竞争步骤,迭代直到特征映射趋于稳定。
  4. 自组织映射神经网络具有保序映射的特点,可以将任意维度的输入在输出层映射为一维或二维图形,并保持拓扑结构不变。
  5. 自组织映射神经网络(SOM)与K-means:
  1. 如何设计自组织映射神经网络并设定网络训练参数:

4、聚类算法的评估

  1. 常见数据簇的特点:
  1. 聚类评估的任务是估计在数据集上进行聚类的可行性,以及聚类方法产生的结果的质量。这一过程分为三个子任务:

小结

这节主要讲了三个无监督学习模型,其中K-means和混合高斯模型的求解都用到了EM算法框架,EM算法框架后面有空再整理下。这节还讲了自组织映射神经网络(SOM),之前都没有怎么见到过。SOM还是具有很多优点的,例如受K影响较小,受噪声影响较小,可视化较好,但是准确性可能不高。聚类算法我比较薄弱,这方面还是需要学习一下。

结尾

如果您发现我的文章有任何错误,或对我的文章有什么好的建议,请联系我!如果您喜欢我的文章,请点喜欢~*我是蓝白绛,感谢你的阅读!

上一篇 下一篇

猜你喜欢

热点阅读