最大熵模型

2020-03-09  本文已影响0人  自由调优师_大废废

1. 介绍

最大熵模型(maximum entropy model, MaxEnt) 是很典型的分类算法,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。
理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。

2. 原理

我们知道熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定。也就是随机变量最随机,对其行为做准确预测最困难。最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断。这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。(在已知若干约束的情况下,我们建模时应该让模型满足这些约束,而对其它则不作任何假设。)

3. 模型

将最大熵原理应用于分类问题,得到的就是最大熵模型。对于这样的一个问题:给定一个训练数据集:T = {(x_1,y_1), (x_2,y_2),……,(x_n,y_n)}
其中x_i\epsilon X 表示输入,y_i \epsilon Y 表示输出, X 和 Y 表示输入和输出空间, N 为样本的个数。
我们的目标是:利用最大熵原理选择一个最好的分类模型,即对于任意给定的输出入 x\epsilon X , 可以以概率 p(y|x) 输出 y \epsilon Y
按照最大熵原理,我们应该优先保证模型满足已知的所有约束。这些约束该如何定义呢?我们的思路是:从训练数据 T 中抽取若干特征,然后要求这些特征在 T 上关于经验分布 \widetilde{p} (x,y)的数学期望与它们在模型中关于p(x,y)的数学期望相等。这样,一个特征就对应一个约束。

有了上面定义的特征函数和经验分布,就可以进一步定义我们所需的约束条件了。

优缺点

上一篇 下一篇

猜你喜欢

热点阅读