机器学习(信息论):信息熵

2020-05-30  本文已影响0人  星光下的胖子

一、相关概念

自信息

当概率p越小,消息x出现的概率就越小,一旦出现所获得的信息量就越大。
因此,我们定义I(x)=\log{(\frac{1}{p(x)})},称I(x)为消息x的自信息量。
自信息用来衡量单一事件发生时所包含的信息量。

信息熵

H(X)=-\sum_{i}p(x_i)\log(p(x_i))
信息熵:随机变量X所有可能取值的信息量的期望。
在信息论中,熵是信息不确定度的度量。不确定度越大,信息量越大,熵越大。

联合熵

H(X,Y)=-\sum_{x}\sum_{y}p(x,y)\log(p(x,y))
联合熵是衡量随机变量XY之间的不确定性。

条件熵

H(X|Y)=-\sum_{x}\sum_{y}p(x,y)\log(p(x|y))
条件熵:在已知随机变量Y的条件下,随机变量X的不确定性。
条件熵=联合熵-独立熵,即H(X|Y)=H(X,Y)-H(Y)

交叉熵

H(p(x),q(x))=-\sum_{i}p(x_i)\log(q(x_i))
交叉熵是衡量真实分布p(x)与模拟分布q(x)之间的近似程度。

相对熵/信息散度/KL散度(Kullback-Leibler divergence)

D_{kl}(p(x)||q(x))=\sum_ip(x_i)\log(\frac{p(x_i)}{q(x_i)})
相对熵/信息散度/KL散度(Kullback-Leibler divergence):衡量两个概率分布之间的距离(差异)。
相对熵=交叉熵-独立熵,即D_{KL}(P||Q)=H(P,Q)-H(P)

互信息

I(X;Y)=\sum_{x}\sum_{y}p(x,y)\log(\frac{p(x,y)}{p(x)p(y)})
互信息:两个随机变量XY的联合分布与独立分布乘积的相对熵。
互信息是衡量两个随机变量之间的相关性。


二、互信息、联合熵、相对熵、熵之间的关系

H(X|Y):知道YX还剩多少信息。
H(X;Y):知道Y后给X带来了多少信息损失,H(X;Y)=H(Y;X)
为方便记忆,可将联合熵当做熵的并集,互信息当做熵的交集。

上一篇 下一篇

猜你喜欢

热点阅读