大师兄的贝叶斯网络学习笔记（五）：贝叶斯网络基础（五）

2025-08-14 本文已影响0人 superkmi

大师兄的贝叶斯网络学习笔记（四）：贝叶斯网络基础（四）
大师兄的贝叶斯网络学习笔记（六）：贝叶斯网络（一）

五、信息论基础

信息论是建筑于概率论之上的研究信息传输和信息处理的数学理论。
它不仅是信息技术的基础，还在诸如统计力学、机器学习等其它领域中起着重要作用。

1. Jensen不等式

一个函数f在实数轴的某个区间I上被称为凹函数，如果 $\forall x_1,x_2\in I$ ，有 $f(\lambda x_1+(1-\lambda)x_2) \geq \lambda f(x_1)+(1-\lambda)f(x_2),\forall \lambda \in[0,1]$

若式中的等号只在 $x_1=x_2$ 时才成立，则成f在区间I上严格凹。

如果f是凹函数，则-f时凸函数。

Jsensen不等式：设f为区间I上的凹函数， $p_i \in [0,1],i=1,2,...,n,且\sum^n_{i=1}p_i=1,则对任何x_i\in I有f(\sum^n_{i=1}p_ix_i)\geq \sum^n_{i=1}p_if(x_i)$ 。

若f严格凹，则上式的等号只有在下下列条件满足时才成立： $p_i . p_j \neq 0，则必有x_i=x_j$ 。

Jensen不等式是凹函数的基本性质，在信息论中经常用到。

2. 熵

一个离散随机变量X的熵 $H(X)$ 定义为： $H(X)=\sum_XP(X)log\frac{1}{P(X)}=-\sum_XP(X)logP(X), 0log\frac{1}{0}=0$ 。

上式的对数若以2为底，则熵的单位是比特。

若以e为底，则单位是奈特。

熵是对随机变量的不确定性的度量，随机变量X的熵越大，说明它的不确定性越大。
用 $|X|$ 来记变量X的取值个数，又称为变量的势。

3. 联合熵、条件熵和互信息

联合熵是借助联合概率分布对熵的自然推广。
两个离散随机变量X和Y的联合熵的定义为： $H(X,Y)=\sum_{X,Y}P(X,Y)log\frac{1}{P(X,Y)}=-\sum_{X,Y}P(X,Y)logP(X,Y)$
条件熵是利用条件概率分布对熵的一个延伸。
随机变量X的熵是用它的概率分布 $P(X)$ 来定义的。
如果知道另一个随机变量Y的取值为y，那么X的后验分布即为 $P(X|Y=y)$ 。
利用此条件分布可以定义给定Y=y时X的条件熵为 $H(X|Y=y)=\sum_XP(X|Y=y)log\frac{1}{P(X|Y=y)}$
熵 $H(X)$ 度量的是随机变量X的不确定性，条件熵 $H(X|Y=y)$ 度量的则是已知Y=y后，X的不确定性。
式中当y变化后， $H(X|Y=y)$ 也会发生改变，由于知道Y的概率分布，因此可以计算观测Y后X的熵的期望值，即 $H(X|Y) = \sum_{X,Y}P(X,Y)log\frac{1}{P(X|Y)}$
$H(X|Y)$ 成为给定Y时X的条件熵。
$H(X|Y)$ 与 $H(X|Y=y)$ 有所不同：

后者是在已知Y取某一特定值y时X的条件熵，或者说是在已知Y=y后，X剩余的不确定性。

而 $H(X|Y)$ 则是在位置Y的取值时，对观测到Y的去之后X剩余的不确定性的一个期望。

$H(X|Y=y)$ 可能会比 $H(X)$ 大，即知道Y的具体取值Y=y可能增大对X的不确定性。

$H(X|Y)$ 永远不大于 $H(X)$ ，即平均来说，知道Y将不会增加X的不确定性。

设联合分布 $P(X,Y)$ 以及边缘分布 $P(X)和P(Y)$ 如下：

-	$x_1	x_2$	$P(Y)$
$y_1$	$0$	$\frac{3}{4}$	$\frac{3}{4}$
$y_2$	$\frac{1}{8}$	$\frac{1}{8}$	$\frac{1}{4}$
$P(X)$	$\frac{1}{8}$	$\frac{7}{8}$

可以得出：

$H(X) = -\frac{1}{8}\log\frac{1}{8}-\frac{7}{8}\log\frac{7}{8}=0.544$

$H(X|Y=y_1)=-0\log0-1\log1=0$

$H(X|Y=y_2)=-\frac{1}{2}\log\frac{1}{2}-\frac{1}{2}\log\frac{1}{2}=1$

$H(X|Y)=\frac{3}{4}H(X|Y=y_1)+\frac{1}{4}H(X|Y=y_2)=0.25$

可以看出 $Y=y_1使X$ 的熵减小，而 $Y=y_2$ 使 $X$ 的熵增大，但平均来说，对 $Y$ 的观测使 $X$ 的熵减小。
再观测到 $Y$ 以前， $X$ 的不确定性是 $H(X)$ 。
通过观测 $Y$ ，期望X的不确定性会变为 $H(X|Y)$ 。
因此 $H(X)与H(X|Y)$ 之差 $I(X;Y)=H(X)-H(X|Y)$ 就是对Y包含多少关于X的信息的一个度量，称之为Y关于X的信息，也成为X和Y之间的互信息。
对任意两个离散随机变量X和Y有：

$I(X;Y)=\sum_{X,Y}P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}$

$I(X;Y)=I(Y;X)$

$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)$

$I(X;Y)+H(X,Y)=H(X)+H(Y)$

联合熵、条件熵和互信息之间的关系可用韦恩图来总结：

4. 相对熵

对定义于随机变量X的状态空间 $\Omega_X$ 上的两个概率分布 $P(X)$ 和 $Q(X)$ ，可以用相对熵来度量它们之间的差异，既有 $KL(P,Q)=\sum_XP(X)log\frac{P(X)}{Q(X)}$

其中约定： $0\log\frac{0}{q};p\log\frac{p}{0}=\infty,\forall>0$

$KL(P,Q)$ 又被称为 $P(X)Q(X)$ 之间的Kullback-Leibler距离，但严格意义上并不是真正的距离，因为 $KL(P,Q)\neq KL(Q,P)$ 。

信息不等式：设 $P(X)和Q(X)$ 为定义在某个变量X状态空间 $\OMEGA_X$ 上的两个概率分布，则有 $KL(P,Q)\geq 0$

其中，当且仅当P与Q相同，即 $P(X=x)=Q(X=x),\forall x\in\Omega_X$ 时等号成立。

5. 互信息与变量独立

互信息与变量独立之间的两个关系，首先由以下定理：
对任意两个离散随机变量X和Y，有:

$I(X;Y)\geq0$

$H(X|Y)\leq H(X)$

上面两式当且晋档X与Y相互独立时等号成立。

对任意3个离散随机变量 $X,Y和Z$ ，有：

$I(X;Y|Z)\geq 0$

$H(X|Y,Z)\leq H(X|Z)$

上面两式当且仅当 $X\perp Y|Z$ 时等号成立。

上面公式的意义在于，从信息论的角度为随机变量之间的条件独立概念提供了直观解释，即给定Z，两个随机变量X和Y相互条件独立，当且仅当他们的条件互信息为零。
或者说，Y关于X的信息已全部包括在Z中，从而观测到Z之后，再对Y进行的观测不会带来关于X的更多信息。
另一方面，如果X和Y在给定Z时相互不独立，则 $H(X|Z,Y)<H(X|Z)$ ，即在已知Z的基础上对Y的进一步观测将会带来关于X的信息，从而降低X的不确定性。

大师兄的贝叶斯网络学习笔记（五）：贝叶斯网络基础（五）

五、信息论基础

1. Jensen不等式

2. 熵

3. 联合熵、条件熵和互信息

4. 相对熵

5. 互信息与变量独立

猜你喜欢

热点阅读