模式识别课程(四)-线性分类器/线性判别函数
目录
- 前言
- 概念回顾
- 生成式模型
- 判别式模型
- 线性判别函数
- Fisher线性判别分析
- 感知机法则
- 总结
前言
概念回顾
- 模式分类的目的: 设法在特征空间中找到两类/多类之间的分界面。
生成模型
- 随机模式
- 从一定的概率模型出发,把**模式识别问题转化成概率模型估
计问题 **,如,条件概率密度估计 - 分类器设计实是对概率模型的估计。
- 又称为基于(概率)模型的模式识别方法。
判别模型
- 确定性简单模式
- 从要解决的问题和训练样本出发,直接求出判别函数。
- 有些方法可事先确定判别函数的形式,通过训练样本确定其中的参数。 如:SVM ,神经网络
- 也称为基于数据的模式识别方法(或统计模式识别的几何方法)
线性判别函数
基于样本直接设计分类器的三个基本要素
- 确定分类器即判别函数的类型
- 确定分类器设计的目标或准则
- 设计算法利用样本数据寻找最优的函数参数
形式化定义:
在判别函数集中,确定待定参数,使得目标函数最小/大:
判别函数的定义
直接用来对样本进行分类判决的函数
若两类样本可以用一个方程来划分,则为判别函数/决策函数/判决函数,为决策面
一般形式
线性判别函数由输入向量x的各分量的线性组合构成
矩阵形式表示为:,称为偏置
如果将偏置项也整合到矩阵中的话,可以表示为:,称为增广表示形式
关于判别函数存在以下两种情况
- 针对二分类问题,即类别有2个
如上图,对于d维数据,维的超平面把维输入空间中归为的点与归为的点分开。
权向量的性质:和决策面正交,确定了决策面的方向。 对任一点X及其在决策面上的投影 ,有:
,,
且
将X代入函数式中:
其中是到决策面的垂直距离,是方向上的单位向量。
任一点到决策面的垂直距离维
原点到决策面的垂直距离为
-
多类问题
给定c(c>2)个类别的样本集合,三种划分方式:
- ,转化为c个两分类问题 存在不能确定区域
- ,c(c-1)/2个二元判别函数
- c类判别函数
广义线性判别函数
线性判别函数:加入更高次的项,得到多项式判别函数:
将d维空间上的点映射到维的y空间上的点,
导致维度灾难:,即向高维空间映射,
相应补救措施:强制加入大的 margin( 或训练样本之间的“间隔 等措施,如支持向量机。 这样处理基于假设 :映射到高维空间并不给数据附加任何错误的结构及相关性)
Fisher线性判别分析
1936年R.A.Fisher提出线性判别分析(Linear Discriminant Analysis,LDA),从降低维度的角度考察线性分类模型。
目标:寻找有利于分类的投影方向.通过调整权向量w ,我们可以选择让类别之间分开最大的一个投影。对于二分类问题,其思想是选择投影方向,使投影后两类相隔尽可能远,而同时每一类内部的样本又尽可能聚集。
在原样本空间中(二分类),两类的类均值向量:
当使用权重向量投影时,的最简单度量方式是
,最大化该距离即可
表示投影后的类均值向量,
均值投影的问题在于没有考虑类内的数据离散度
Fisher提出:通过最大化一个函数,使投影后的类间分离性最大,同时又能使每类的类内分离性较小。
投影后的类内离散度(使用方差表示)如下:
类内的总离散度是
将公式转换成为原空间的表示
表示原空间类间离散度矩阵
表示原空间类内离散度矩阵
对于准则函数求其最大值,对W求导并令其等于0:
若
练习
利用Fisher判别解决二分类感知机算法
Rosenblatt于1962年提出,是一个二分类的线性模型,输入特征向量X,输出类别[t],分别为+1和-1
非线性激活函数f():
w 的线性函数,而对于正确分类的样本,误差函数等于零。总的误差函数是分段线性的。
对于该误差函数使用随机梯度下降法进行迭代更新:权向量的迭代公式为:
感知机算法的可收敛性:
感知机准则总结
- 优点:简单、便于实现
- 缺点:结果不唯一,在线性不可分的情况下不收敛
然而感知机算法是神经网络,深度学习发展的基础。
总结
本篇笔记记录了线性分类器的基本知识,主要介绍了Fisher和感知机法则,两个算法思路简单清晰,实现起来也比较容易,是后续复杂算法的基础。对于线性判别函数,需要掌握其基本的形式和构建思想即可。