模式识别复习整理

2016-12-08  本文已影响0人  艺术叔

考试说明

注重基础知识和概念的理解,因此解题中的计算过程不会很复杂,但是会有推公式的过程。本课程的重点知识包括:贝叶斯决策、概率密度估计、参数法、非参数法、线性分类器设计、神经网络、支撑向量机、聚类分析、特征提取和选择。

参考资料:

本文结构:哪些分类模型属于参数法/非参数法?哪些属于生成模型/判别模型?

判别分析(判别模型)

判别模型不基于后验概率,而是设计一个函数(黑箱),对于给定样本作为输入,输出一个类别。当然这个函数在测试前需要进行训练,也就是说这个函数是带有参数的(可调节的)。判别模型训练本质上是利用标记样本进行判别函数参数学习。
如何利用样本进行学习?基本方法是构造准则函数(误差函数),这个函数包含了样本的标记和模型的输出(也就包含了判别模型的输入和参数)。误差函数原则是样本标记和模型输出一致时(或者近似,对于回归任务)函数值为0或者很小;而当样本标记与模型输出差别很大时,函数值很大。模型参数学习过程就是通过调节参数使得误差函数值尽可能小(模型输出与样本标记一致)。


这张图展示了误差函数。对于样本标记与输出一致的区域(红色),误差函数为0,其它区域存在误差,要求误差函数对参数可导,这样可以通过求导找到红色的参数空间。三种误差函数分别为分块线性、平滑、陡峭。陡峭的误差函数更容易找到红色区域

最优的学习率最好是经过一次学习就能得到最小值点


线性判别模型

线性判别只支持线性可分情况,否则模型参数学习不收敛。当然线性不可分情况可以改造成线性可分。

二分类器构造多分类器 p64

1 属性先经过一个(非线性)单值函数,再利用常规的线性判别模型
2 高次推广:加入原先属性的高次项(或交叉项)作为新的属性,仍按照线性判别模型

在线性可分情形下,满足上述不等式的 a 是无穷多的, 因此需要引入一个准则。仅考虑错分样本作为误差,法向量以批错误样本向量之和的方向进行调整(乘以学习速率),这样法向量与错误样本之间的夹角减小。

感知机误差函数
权值更新公式

其它感知机误差函数

优点
理论基础强;训练容易;能够避免过拟合
缺点
核函数选择;C参数选择;复杂度高

函数间隔:y(wx+b),用于表示分类确信度
关于样本点的函数间隔



关于数据集的函数间隔


更常用的是几何间隔,物理意义是点到平面的有向距离




平面外一点用其在超平面上的投影以及到超平面的距离表示.注意r为几何距离,有正负 点到平面距离推导

最大化距离的优化问题:



令函数距离为1,转化为等价优化问题:




利用对偶问题求解优化问题


对于每一个样本引入一个松弛变量,对约束进行放宽。将松弛变量视为代价,加到目标函数中



利用对偶问题求解上述优化问题



求解完上述问题后,对于松弛变量大于0的向量不是支持向量,小于等于0对应的向量是支持向量。
C表示裕量的

-### 非线性划分






因此虽然需要非线性函数将原空间进行非线性映射,但是并不需要具体去求这个函数,只需要求内积形式的核函数



核函数的充要条件是对于任意输入,形成的矩阵是半正定的

神经网络

误差函数
**输入层节点下标为i,节点输出为x;隐含层节点下标为h,节点输出为y;输出层节点下标为j;节点输出为z**
求导求解
优化求解

概率模型判别(生成模型)

一个实际为j类样本判为某类i的风险
对于一个准则函数的总体风险

由此导出贝叶斯判别准则:对于每一个样本都选择最小期望代价对应的类别,


最小代价(风险)决策
对于不考虑错判风险,只考虑准确率的任务,上述风险函数具体为0-1代价(风险):
最小误差率任务:0-1代价(风险)。或者是所有误判代价相等且大于正确的代价

此时最小风险决策具体为最小错误率决策,也就是后验概率最大的对应的类别(类条件概率) p147:


最小误差率决策

贝叶斯分类器与贝叶斯学习有显著区别,前者是通过最大后验概率进行点估计,而后者是进行分布估计。
判别函数(用于计算c个类别对应的风险):


最小代价(风险)对应的判别函数
最小误差率(0-1风险)分类对应的判别函数

一般类条件概率假设为多元正态分布模型,带入最小误差准则对应的判别函数中,得:


正态分布假设下,最小误差准则对应的判别函数

接着讨论一些情况

求类条件概率时,考虑到样本空间太大,因此假设样本各属性之间相互独立,于是类条件概率可以写成属性类条件概率的乘积形式。这样对于每一个概率,样本空间都是一维的,根据样本对求出每一个属性的类条件分布。类的概率按照样本占比进行估计。至此样本学习完毕。



给定类别,假设对总体服从特定的概率分布形式,然后基于样本对模型参数进行估计(一般是连续型分布,离散型直接通过出现频率进行估计)。确定参数后,类条件概率p(x|c)就完全确定下来了。
参数估计有两种派别,对应两种方法:

假设模型参数为正态分布

假设类条件分布为正态分布,均值未知,方差已知
均值参数服从已知的正态分布

求得均值参数的后验概率:





根据贝叶斯概率估计公式,积分得到类条件分布:


样本空间中某一点处的概率密度用样本在其邻域出现的频率来估计:



其中等式左边为需要估计的某一点处的概率密度,V为此点的一个邻域,两者乘积是一个概率值P(因为概率密度是一个无穷小的概率,在样本空间上积分才是概率值)。k/n表示样本在此邻域内出现的频率。对于给定的数据集,n固定,变量只剩下k和V. 固定k,称为knn估计;固定V,称为Parzen window估计。

对于输入向量,存在一个分量大于0.5就输出0,否则输出1.

推广:不仅仅是邻域内的样本才对此点有贡献,而是所有样本根据距离远近加权做出贡献。实际上只要满足概率密度要求的函数都可以


推广的delta函数含义为:一个样本,对于给定距离(向量)带来的计数



对于每一个样本,欲测量点处的概率密度为所有样本对此点的概率密度影响之和的平均值

knn分类器可以直接估计后验概率(类条件概率也可以用knn进行估计)

k=3,说明包围3个样本最小区间的中心处是一个峰值
k=1时,样本点处的概率密度值为无穷大。除非样本重复,否则其它k>1概率密度值都有界

快速近邻搜索

降维与特征提取

高维有利于不同类别之间的区分

上述两个优化问题等价,运用向量求导法则,可得:


显然解与随机向量X的协方差阵的特征值和特征向量有关


PCA算法

聚类分析

kmeans局限性

实际数据不服从高斯混合分布的情况更加普遍,由此引入谱聚类算法。

图切割


补充

常见问题:

(a)将协方差矩阵与单位矩阵进行平滑,得到非奇异矩阵。
(b)将协方差矩阵进行正交分解(谱分解)后,将为 0 的特征值置为一个很小的非零值(如 0.001).

簇与样本之间的距离采用最近距离
簇与样本之间的距离采用最远距离
上一篇下一篇

猜你喜欢

热点阅读