数据科学/机器学习/人工智能

信息论简述

2016-03-17  本文已影响682人  Herbert002

〇、目的

机器学习的很多算法中,越来越多的利用信息论的一些观点和结论。本文更多的是从机器学习的角度对信息论做一个简要概述。

一、信息论简史[1]

信息论是20世纪40年代后期从长期通讯实践中总结出来的一门学科,是专门研究信息的有效处理和可靠传输的一般规律的科学。

切略(E.C.Cherry)曾写过一篇早期信息理论史,他从石刻象形文字起,经过中世纪启蒙语言学,直到16世纪吉尔伯特(E.N.Gilbert)等人在电报学方面的工作。

20世纪20年代奈奎斯特(H.Nyquist)和哈特莱(L.V.R.Hartley)最早研究了通信系统传输信息的能力,并试图度量系统的信道容量。现代信息论开始出现。

1948年克劳德·香农(Claude Shannon)发表的论文“通信的数学理论”是世界上首次将通讯过程建立了数学模型的论文,这篇论文和1949年发表的另一篇论文一起奠定了现代信息论的基础。

由于现代通讯技术飞速发展和其他学科的交叉渗透,信息论的研究已经从香农当年仅限于通信系统的数学理论的狭义范围扩展开来,而成为现在称之为信息科学的庞大体系。

二、信息论意义

信息论虽然起源于通信领域,但信息论的发展和应用已超越原有的意义。

2.1、信息论是对客观世界的更进一步抽象和描述

信息是对客观世界的抽象,信息论是对信息的抽象,也就是对客观世界的进一步抽象和描述。这种抽象为科学工作者提供了一个更宏观的角度来审视信息,观察世界。

2.2、信息论对其他学科的促进

"信息论在统计物理(热力学)、计算机科学(科尔莫戈罗夫复杂度或算法复杂度)、统计推断(奥卡姆剃刀:最简洁的解释最佳)以及概率和统计(关于最优化假设检验与估计的误差指数)等学科中都具有奠基性的贡献。"[2]

信息论在经济领域、政治领域也具有重要的指导意义。

2.3、信息论是重要的方法论

此观点来源于吴军博士的著作《硅谷之谜》。信息论建立在不确定性的基础之上,我们生活中时时处处都会遇到去确定性。信息论中很多结论都可以作为我们做事的思维方式和方法论。以下会有提及。[3]

三、基本定义

3.1、熵

度量随机变量的不确定性。log一般取以2为底,量纲为比特;如果取以e为底,量纲为奈特。

3.2、联合熵

表示两个随意变量的不确定性。

3.3、条件熵

表示增加一个随机变量X的条件下的随机变量Y的不确定性。

3.4、相对熵

两个随机分布之间距离的度量。又叫K-L散度(Kullback-Leibler divergence)。

3.5、互信息

表示一个随机变量包含另一个随机变量信息量的度量。也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。

3.6、互信息与熵

四、重要结论

4.1、香农第一定律

其意义在于可以将信号源内的信息变成任何通信的编码,而当这种编码尽量服从等概率分布时,每个编码所携带的信息量最大,进而能提高整个通信系统的效率。霍夫曼在此定理指导下提出了霍夫曼编码[3]。

4.2、香农第二定律

有噪信道编码定理。当信道的信息传输率不超过信道容量时,采用合适的信道编码方法可以实现任意高的传输可靠性,但若信息传输率超过了信道容量,就不可能实现可靠的传输[1]。通俗地将,就是信息的传播速率不可能超过信道的容量[3]。

这是通信行业的理论基础,更是互联网思维的理论基础。

4.3、最大熵原理

热力学第二定律表明,孤立系统的熵总是不减的。所以在对一个随机事件的概率分布的进行预测时,预测应当满足全部已知的条件,这时候可以认为未知情况的信息熵最大,因为这种情况最可能和实际情况相符。

吴军博士在其著作《数学之美》中,这样表述,“最大熵原理指出,需要对一个随机事件的概率分布进行预测时,我们的预测应该满足全部已知条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要)在这种情况下,概率分布最均匀,预测的风险最小。[4]”个人认为,吴军博士的逻辑是不对的,因为先假定熵最大,再有均匀分布,当然熵最大的分布,不一定就是均匀分布。[2]

最大熵模型就是基于最大熵原理的。

4.4、信息论是大数据思维的理论基础

A、熵减原理

如上式所述,减小不确定性的有效方式是引入新的相关信息(如果不相关,则取等号)。

吴军博士在其著作《硅谷之谜》中这样描述,“不确定性在身边无处不在,不是利用公式就能预测的,消除对未来不确定性方法的唯一途径就是引入信息,这既是信息论的灵魂,也是今天所提倡的大数据思维的理论基础。[3]”

B、相关分析而不是因果分析

大数据思维,提倡相关分析,而不是因果分析。是因为数据量已经积累到一定程度,相关分析的成本比因果分析低很多,而对我们非常有用[5]。信息论跳出信息所描述的内容之间的因果关系,站在宏观的角度量化信息,研究更广泛的随机事件以及随机事件之间的关系,这与大数据的这种思维不谋而合。

五、参考

[1]、百度百科

[2]、《信息论基础(第二版)》,Thomas M.Cover等著,阮吉寿等译

[3]、《硅谷之谜》,吴军著

[4]、《数学之美》,吴军著

[5]、《大数据时代》,Viktor Mayer-Schönberger著,周涛等译

上一篇下一篇

猜你喜欢

热点阅读