统计学习方法读书笔记——第六章 逻辑斯谛回归与最大熵模型
逻辑斯谛回归(logistic regression)是统计学习中经典的分类方法。最大熵是概率模型学习的一个准则,将其推广到分类模型得到最大熵模型(maximum entropy model)。
逻辑斯谛回归模型与最大熵模型都属于对数线性模型。
6.1 逻辑斯谛回归模型
6.1.1 逻辑斯谛分布
逻辑斯谛分布的定义:
逻辑斯谛分布的密度函数和分布函数的图形:
6.1.2 二项逻辑斯谛回归模型
逻辑斯谛回归模型的定义:
逻辑斯谛回归模型的特点:
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
若发生概率为,则该事件的几率为,该事件的对数几率(log odds) 或 logit函数为:
对逻辑斯谛回归而言,。即输出的对数几率是输入的线性函数。
换一个角度看:
6.1.3 模型参数估计
可应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。
这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
最终学到的逻辑斯谛回归模型为:
6.1.4 多项逻辑斯谛回归
可以将上述二类分类模型推广位多项逻辑斯谛回归模型,用于多类分类。
6.2 最大熵模型
最大熵模型由最大熵原理推导实现。
6.2.1 最大熵原理
最大熵原理:是一个准则,满足约束的熵最大的模型是最好的模型。
在满足约束条件的情况下,那些不确定的部分都是“等可能的”。通过熵的最大化来表示“等可能性”。
举个最大熵原理的例子:
6.2.2 最大熵模型的定义
将最大熵原理应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布P(Y|X),那么约束为特征函数关于经验分布P(X,Y)的期望值和关于模型P(Y|X)与P(X)的期望值相等。
最大熵模型的定义:
6.2.3 最大熵模型的学习
最大熵模型的学习可以形式化为约束最优化问题。
将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。
首先求解对偶问题(6.19)的内部极小化问题。
之后求解对偶问题外部的最大化问题。
6.2.4 极大似然估计
从以上最大熵模型学习中可以看出,最大熵模型是由式(6.22)、式(6.23)表示的条件概率分布。
可以证明对偶函数的极大化等价于最大熵模型的极大似然估计。
可以将最大熵模型写成更一般的形式:
6.3 模型学习的最优化算法
6.3.1 改进的迭代尺度法
改进的迭代尺度法(improved iterative scaling, IIS) 是一种最大熵模型学习的最优化算法。
目标是通过极大似然估计学习模型参数,即求对数似然函数的极大值。
IIS的核心思想:
6.3.2 拟牛顿法
最大熵模型还可以应用牛顿法或拟牛顿法。
本章概要
-
逻辑斯蒂回归
-
最大熵模型
-
最大熵原理
- 逻辑斯谛回归模型与最大熵模型都属于对数线性模型。