信息论基本概念
单符号离散模型
信源每次输出一个单一符号,信宿每次接收一个单一符号
信源(事件X)
信宿(事件Y)
自信息
-- 自信息量
-- 联合自信息量
-- 条件自信息量
其中表示的不确定度,表示已知的情况下,仍存在的不确定度
熵(平均信息量)
信源熵
联合熵
条件熵
互信息
信源发出的概率为
信宿收到时推测信源发出的概率为
互信息量定义为:
对的互信息量可以理解为,的不确定度减去确定后的不确定度,即确定后消除的对的不确定度
平均互信息量
其物理意义:
1)信源的先验不确定度- 信道疑义度
2)信宿熵 - 信道噪声
3)通信前的熵 - 通信后产生统计性联系的熵
信道容量
信道转移矩阵
如果信源熵为,由于信道存在干扰,一般情况下输出端只能接收到
定义信道的信息传输率
平均互信息是信源无条件分布概率
和信道转移概率的函数,当信道特性(信道转移概率)固定后,互信息随着信源分布概率变化,且为上凸函数
找到一种信源概率分布,使信息传输率最大,定义这个最大的信息传输率为传输容量
相对熵与交叉熵
相对熵也称KL散度,在信息理论中,相对熵是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。
相对熵也可以衡量两个随机分布之间的距离
定义交叉熵
多符号离散平稳模型
信源每次输出一个符号序列,序列的每一位都是随机的,而前后符号是有统计关系的,若信源发出的符号序列的概率分布与时间无关,我们称之为多符号离散平稳信源。
二维平稳信源
信源发出的符号序列中,每两个符号看作一组,每组代表一个消息,为了便于分析,我们假设组与组之间是统计独立的,但是要注意这与实际情况并不相符,由此得出的信源熵仅仅是近似值。
假设
则
,
信源熵为
N维平稳信源
信源熵为
- 极限熵
信源平均每发一个符号所提供的信息量为
当时,,称为极限熵
在研究实际信源时,必须求出极限熵才能确切地表达每发一个符号提供的信息量,而这是比较困难的
马尔可夫信源
在许多信源的输出序列中,符号之间的依赖是有限的,任何时刻信源发生的概率只与前面若干个符号有关。
在随机变量序列中,时刻m+1的随机变量只与前面发生的m个随机变量有关,与更前面的随机变量无关,这种信源称为马尔可夫信源
因此,极限熵
在机器学习上的应用
使用交叉熵作为loss function
在分类学习时,真实label的概率分布为Y,预测label的概率分布为A,要使A尽量接近Y,可以最小化,由于H(Y)是常数,因此可以简化为最小化
最大熵模型
基本思想:在满足约束的情况下,最大化的条件熵,使用来进行预测
从训练数据中,根据极大似然估计,可以求出经验分布和
特征函数
用特征函数的期望建立约束,有n个特征函数,就有n个约束
建立最优化模型
决策树模型
建立树模型,每个节点代表一个特征的划分,使用0-1 loss function
节点划分是一个NP-hard问题,考虑采用启发式算法,根据规则每次选择最好的节点
其中一个规则是该节点可以提供最多的信息,即熵减小最多,熵越小,loss function越小,所以实际上是选择使loss function减小最多的节点
设数据集为D,特征为A,分割前的熵为H(D),分割后有多个数据集,分割后的熵为,因此信息增益为,选择信息增益最大的特征