大数据,机器学习,人工智能机器学习与数据挖掘机器学习和人工智能入门

信息熵 小结

2018-10-18  本文已影响4人  有苦向瓜诉说

各类熵的定义和计算

  1. 单个变量的信息熵的计算公式如下
    H(X) = - \sum {p({x_i})} \log (p({x_i}))~~~~(i = 1,2, \ldots ,n)

  2. 两个变量的联合熵计算公式
    H(X,Y) = - \sum_{x \in X,y \in Y} {p(x,y)} \ln (p(x,y))

  3. 条件熵是条件分布上关于起条件作用的那个随机变量取平均之后的期望值,定义为
    \begin{array}{l} H(Y|X) &= \sum_{x \in X} {p(x)H(Y|X = x)} \\ &= - \sum_{x \in X} {p(x)} \sum_{y \in Y} {p(y|x)\log p(y|x)} \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \end{array}

  4. 联合熵与条件熵的关系:一对随机变量的熵等于其中一个随机变量的熵加上另一个随机变量的条件熵,即:H(X,Y) = H(X) + H(Y|X)(链式法则)。证明过程为:
    \begin{array}{l} H(X,Y) &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x,y)} } \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)p(y|x)} } \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)} } - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \\ &= - \sum_{x \in X} {p(x)\log p(x)} - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(y|x)} } \\ &= H(X) + H(Y|X) \end{array}

  5. 相对熵:两个随机分布之间距离的度量。
    D\left( {p||q} \right) = \sum_x {p\left( x \right)\log \frac{{p\left( x \right)}}{{q\left( x \right)}}} = {E_{p\left( x \right)}}\log \frac{{p\left( x \right)}}{{q\left( x \right)}}

  6. 互信息:互信息I(x,y)为联合分布P(x,y)和乘积分布p(x)p(y)之间的相对熵。
    \begin{array}{l} I(X;Y) &= \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log \frac{{p(x,y)}}{{p(x)p(y)}}} } \\ &= D(p(x,y)||(p(x)p(y)))\\ &= {E_{p(x,y)}}\log \frac{{p(X,Y)}}{{p(X)p(Y)}} \end{array}
    有表达式可知互信息具有对称性,非负性。

  7. 互信息与熵的关系:互信息是在给定另一个随机变量Y知识的条件下,X不确定度的缩减量。
    \begin{array}{l} I(X;Y) &= \sum_{x \in X,y \in Y} {p(x,y)\log \frac{{p(x,y)}}{{p(x)p(y)}}} \\ &= \sum_{x \in X,y \in Y} {p(x,y)\log \frac{{p(x|y)}}{{p(x)}}} \\ &= - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x)} } + \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x|y)} } \\ & = - \sum_{x \in X} {p(x)\log p(x)} - ( - \sum_{x \in X} {\sum_{y \in Y} {p(x,y)\log p(x|y)} } )\\ &= H(X) - H(X|Y) \end{array}
    且根据互信息的对称性和联合熵与条件熵的关系H(X,Y) = H(X) + H(Y|X)可得
    \begin{array}{l} I(X;Y) = H(X) - H(X|Y)\\ I(X;Y) = H(Y) - H(Y|X)\\ I(X;Y) = H(X) + H(Y) - H(X,Y)\\ I(X;Y) = I(Y;X) \end{array}

参考

  1. https://www.zybuluo.com/frank-shaw/note/108124
  2. https://www.zhihu.com/question/22178202
  3. 【直观详解】信息熵、交叉熵和相对熵
  4. https://blog.csdn.net/haolexiao/article/details/70142571
上一篇下一篇

猜你喜欢

热点阅读