自信息,KL散度(相对熵),交叉熵,JS散度
2019-06-17 本文已影响0人
winddy_akoky
一、自信息
信息是一个很抽象的概念,如何衡量一句话或一篇文章的信息量是一个比较难的问题。有时候,人们会说一条新闻信息量很大,或认为信息量很小,但却很难描述这条信息的信息量具体是多少,为什么?直到1948年,香农提出一个“信息熵”的概念,才解决的信息的量化问题。
熵,可以理解成不确定性。比如想很衡量某一件事的信息量是多少,设该事件发生的概率为,那么根据香农提出的“信息熵”,该事件的信息量可以表示成:
上面这个式子就叫做自信息。
也就是说,某件事发生的概率越小,其信息量越大。好比有人跟你说:明天太阳从东边升起。在地球上的你来说,这显然是一句废话,信息量为零。但是如果改成:明天太阳从西面升起。这信息量分分钟上微博热搜。
根据上面的定义,就可以引出一个随机变量的平均信息熵(期望):
随机变量的熵是随机变量不确定性的度量,它是描述一个随机变量平均所需信息量的度量。
二、KL散度(相对熵)
在信息论中,KL散度也叫相对熵,它用于衡量两个概率分布的差异性。定义如下:
其中 是目标分布,这个分布是不知道的,但是我们有属于这个分布的样本。
是用于近似
的分布。当这个两个分布相等时,他们的相对熵就等于0.
三、交叉熵
对KL散度做适当变形:
前面一部分就是信息熵,而后面一部分就是交叉熵:
因为来自于真是的数据分布,因此第一部分可以看成是常数。也就说在特定条件下,交叉熵等价于KL散度。