交叉熵 Cross Entropy

2022-02-11  本文已影响0人  数科每日

前情回顾:

信息熵 Entropy --- 不确定性的单位
KL Divergence : 衡量两个分布的差异

CrossEntropy 是机器学习中常用的Loss 函数类型, 本文结合 KL Divergence 和LogLikelihood 梳理一下 Cross Entropy 的概念。


在信息论中,用Cross Entropy 来衡量2个分布分距离。其定义为:

H(P, Q)=-\sum_{x \in X} p(x) \log q(x)

其中:

和 KL Divergence 的关系

参考KL散度的定义, 交叉熵也可以写成:

H(P, Q)=D_{K L}(P \| Q)+H(P)

其中 H(P) 是分布 P 的固有属性, 在机器学习中 P 一般代表数据的分布, 因此在一个特定的训练中H(P) 一般是一个常量。 所以,可以书说: KL 散度和交叉熵是一致的, 优化KL 就是优化 Corss Entropy。

和 Log-Likelihood 的关系

对于分类问题, 我们其实是在训练模型的参数 \theta, 是的模型输出的分布和实际分布尽量的符合数据中的分布

Likelihood

如果在左右变量除以 N, 那我们可以得到:

LogLikelihood vs CrossEntropy

所以, 最大化 Likelihood 就是最小化 Cross Entropy, 二者也是等价的 。

上一篇 下一篇

猜你喜欢

热点阅读