最大熵

2020-04-03  本文已影响0人  STACK_ZHAO

最大熵模型

C\equiv P\epsilon P|E_p(f_i)=E_{\hat{p}}(f)
定义在条件概率分布
P(X|Y)上的条件熵为 H(P)=-\sum_{x,y}\hat{P}(x)p(y|x)logP(Y|x)
最大熵的模型学习过程就是求解最大熵模型的过程,最大熵模型的学习可以形式化为约束最优化问题。顾最大熵模型的学习等价于约束最优化问题:
max(P\epsilon C) \ H(P)=-\sum_{x,y}\hat{P}(x)p(y|x)logP(Y|x)\\ s.t. \ E_p(f_i)=E_{\hat{p}}(f),i=1,2,3....n\\ \sum_{y}P(y|x)=1
利用拉格朗日对偶性实现将约束最优化问题转化为无约束优化对偶问题,
所以引入拉格朗日乘子w0,w1,...wn
L(P,w)=-H(P)+w_0(1-\sum_{y}P(y|x))+\sum_{i=1}^{n}w_i(E_p(f_i)=E_{\hat{p}}(f))
简单理解,就是将条件都加入到拉格朗日方程中,然后下面用求解对偶问题的方法,将变量进行进一步转化,从而对问题的求解
所以针对条件熵的最大值,用上面的解法,课得出来
P_w(y|x)=\frac{1}{Z_w(x)}exp{[\sum_{i}^{n}w_if_i(x,y)]} \\其中Z_w(x)=\sum_{y}exp(w_if_i(x,y))

上一篇 下一篇

猜你喜欢

热点阅读