统计学习方法读书笔记——第六章 逻辑斯谛回归与最大熵模型

2021-02-20  本文已影响0人  Jarkata

逻辑斯谛回归(logistic regression)是统计学习中经典的分类方法。最大熵是概率模型学习的一个准则,将其推广到分类模型得到最大熵模型(maximum entropy model)。

逻辑斯谛回归模型与最大熵模型都属于对数线性模型

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

逻辑斯谛分布的定义:

逻辑斯谛分布的密度函数和分布函数的图形:


6.1.2 二项逻辑斯谛回归模型

逻辑斯谛回归模型的定义:


逻辑斯谛回归模型的特点
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
若发生概率为p,则该事件的几率为\frac{p}{1-p},该事件的对数几率(log odds) 或 logit函数为:logit(p)=log\frac{p}{1-p}

对逻辑斯谛回归而言,log\frac{P(Y=1|x)}{1-P(Y=1|x)}= w \cdot x。即输出Y=1的对数几率是输入x的线性函数。

换一个角度看:



6.1.3 模型参数估计

可应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。



这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

最终学到的逻辑斯谛回归模型为:


6.1.4 多项逻辑斯谛回归

可以将上述二类分类模型推广位多项逻辑斯谛回归模型,用于多类分类。


6.2 最大熵模型

最大熵模型由最大熵原理推导实现。

6.2.1 最大熵原理

最大熵原理:是一个准则,满足约束的熵最大的模型是最好的模型。




在满足约束条件的情况下,那些不确定的部分都是“等可能的”。通过熵的最大化来表示“等可能性”。
举个最大熵原理的例子:


6.2.2 最大熵模型的定义

将最大熵原理应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布P(Y|X),那么约束为特征函数关于经验分布P(X,Y)的期望值和关于模型P(Y|X)与P(X)的期望值相等。



最大熵模型的定义:

6.2.3 最大熵模型的学习

最大熵模型的学习可以形式化为约束最优化问题。


将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。



首先求解对偶问题(6.19)的内部极小化问题。




之后求解对偶问题外部的最大化问题。

6.2.4 极大似然估计

从以上最大熵模型学习中可以看出,最大熵模型是由式(6.22)、式(6.23)表示的条件概率分布。
可以证明对偶函数的极大化等价于最大熵模型的极大似然估计。

可以将最大熵模型写成更一般的形式:


6.3 模型学习的最优化算法

6.3.1 改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling, IIS) 是一种最大熵模型学习的最优化算法。



目标是通过极大似然估计学习模型参数,即求对数似然函数的极大值\hat w
IIS的核心思想:

6.3.2 拟牛顿法

最大熵模型还可以应用牛顿法或拟牛顿法。

本章概要

  1. 逻辑斯蒂回归




  2. 最大熵模型


  3. 最大熵原理


  4. 逻辑斯谛回归模型与最大熵模型都属于对数线性模型
上一篇下一篇

猜你喜欢

热点阅读