自信息,KL散度(相对熵),交叉熵,JS散度

2019-06-17  本文已影响0人  winddy_akoky

一、自信息

信息是一个很抽象的概念,如何衡量一句话或一篇文章的信息量是一个比较难的问题。有时候,人们会说一条新闻信息量很大,或认为信息量很小,但却很难描述这条信息的信息量具体是多少,为什么?直到1948年,香农提出一个“信息熵”的概念,才解决的信息的量化问题。

熵,可以理解成不确定性。比如想很衡量某一件事的信息量是多少,设该事件发生的概率为P(x),那么根据香农提出的“信息熵”,该事件的信息量可以表示成:
I(x)=-log(P(x))
上面这个式子就叫做自信息。

也就是说,某件事发生的概率越小,其信息量越大。好比有人跟你说:明天太阳从东边升起。在地球上的你来说,这显然是一句废话,信息量为零。但是如果改成:明天太阳从西面升起。这信息量分分钟上微博热搜。

根据上面的定义,就可以引出一个随机变量X的平均信息熵(期望):

H(X)=-\sum p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right),(i=1,2, \ldots, n)

随机变量的熵是随机变量不确定性的度量,它是描述一个随机变量平均所需信息量的度量。

二、KL散度(相对熵)

在信息论中,KL散度也叫相对熵,它用于衡量两个概率分布的差异性。定义如下:
D_{K L}(p \| q)=\sum_{i=1}^{N} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)
其中 p(x)是目标分布,这个分布是不知道的,但是我们有属于这个分布的样本。q(x)是用于近似p(x)的分布。当这个两个分布相等时,他们的相对熵就等于0.

三、交叉熵

对KL散度做适当变形:

\begin{equation} \begin{aligned} D_{K L}(p \| q) &=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \\ &=-H(p(x))+\left[-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right)\right] \end{aligned} \end{equation}

前面一部分就是p(x)信息熵,而后面一部分就是交叉熵
\begin{equation} H(p, q)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(q\left(x_{i}\right)\right) \end{equation}

因为p(x)来自于真是的数据分布,因此第一部分可以看成是常数。也就说在特定条件下,交叉熵等价于KL散度。

四、JS散度

J S(P \| Q)=\frac{1}{2} K L\left(P(x)\left\|\frac{P(x)+Q(x)}{2}+\frac{1}{2} K L\left(Q(x) \| \frac{P(x)+Q(x)}{2}\right)\right.\right.

上一篇 下一篇

猜你喜欢

热点阅读