统计学习方法读书笔记——第六章逻辑斯谛回归与最大熵模型

2021-02-20 本文已影响0人 Jarkata

逻辑斯谛回归(logistic regression)是统计学习中经典的分类方法。最大熵是概率模型学习的一个准则，将其推广到分类模型得到最大熵模型(maximum entropy model)。

逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

逻辑斯谛分布的定义：

逻辑斯谛分布的密度函数和分布函数的图形：

6.1.2 二项逻辑斯谛回归模型

逻辑斯谛回归模型的定义：

逻辑斯谛回归模型的特点：
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
若发生概率为 $p$ ，则该事件的几率为 $\frac{p}{1-p}$ ，该事件的对数几率(log odds) 或 logit函数为: $logit(p)=log\frac{p}{1-p}$

对逻辑斯谛回归而言， $log\frac{P(Y=1|x)}{1-P(Y=1|x)}= w \cdot x$ 。即输出 $Y=1$ 的对数几率是输入 $x$ 的线性函数。

换一个角度看：

6.1.3 模型参数估计

可应用极大似然估计法估计模型参数，从而得到逻辑斯谛回归模型。

这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

最终学到的逻辑斯谛回归模型为：

6.1.4 多项逻辑斯谛回归

可以将上述二类分类模型推广位多项逻辑斯谛回归模型，用于多类分类。

6.2 最大熵模型

最大熵模型由最大熵原理推导实现。

6.2.1 最大熵原理

最大熵原理：是一个准则，满足约束的熵最大的模型是最好的模型。

在满足约束条件的情况下，那些不确定的部分都是“等可能的”。通过熵的最大化来表示“等可能性”。
举个最大熵原理的例子：

6.2.2 最大熵模型的定义

将最大熵原理应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布P(Y|X)，那么约束为特征函数关于经验分布P(X,Y)的期望值和关于模型P(Y|X)与P(X)的期望值相等。

最大熵模型的定义：

6.2.3 最大熵模型的学习

最大熵模型的学习可以形式化为约束最优化问题。

将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。

首先求解对偶问题(6.19)的内部极小化问题。

之后求解对偶问题外部的最大化问题。

6.2.4 极大似然估计

从以上最大熵模型学习中可以看出，最大熵模型是由式(6.22)、式(6.23)表示的条件概率分布。
可以证明对偶函数的极大化等价于最大熵模型的极大似然估计。

可以将最大熵模型写成更一般的形式：

6.3 模型学习的最优化算法

6.3.1 改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling, IIS) 是一种最大熵模型学习的最优化算法。

目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值

\hat w

。
IIS的核心思想：

6.3.2 拟牛顿法

最大熵模型还可以应用牛顿法或拟牛顿法。

本章概要

逻辑斯蒂回归
最大熵模型
最大熵原理
逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

上一篇下一篇

猜你喜欢

热点阅读