信息论基础(1)初识信息和离散信源
(1)认识信息
首先必须明确,什么是信息?
如果从科学史角度,必然要从热力学第一第二定律讲起,直到麦克斯韦妖,再到信息论,兰道尔极限甚至于宇宙本质的相关概念。但这里仅仅从对信息的认识做一个基础的概述。
更多信息可以参考以下视频:
https://www.bilibili.com/bangumi/play/ep203928/
https://www.bilibili.com/video/av41463132
https://www.bilibili.com/video/av41539594
https://www.bilibili.com/video/av42589628
https://www.bilibili.com/video/av8506013/
https://www.bilibili.com/video/av8712938
https://www.bilibili.com/video/av31874991
https://www.bilibili.com/video/av32329782
https://www.bilibili.com/video/av13807165
扯得远了,在这里多说一句,确定一个概念的边沿是非常重要的。在牛顿之前,motion(运动)的含义就与信息一样含混不清。对于当时遵循亚里士多德学说的人们而言,运动可以指代及其广泛的现象:桃子成熟、石头落地、孩童成长、尸体腐烂······而牛顿重新定义了运动的概念,即物体在一段时间内从一点到另一点的移动轨迹。因而,牛顿才能对其进行描述,即点与点之间的长度、所经过的时间。因而,牛顿才能提出速度、加速度等概念。而后,牛顿又重新定义了「质量」「密度」「体积」等概念,最终才得以构建经典物理体系。
那么,我们首先要明白,什么是信息?
这是一个古老的问题,又是一个现代的问题,也是一个迄今为止仍然众说纷纭、悬而未决的问题,特别是在社会所认可的广义信息的层面上。
你要是问:“什么是信息?”,人人都能列出一大串他称之为‘信息’的东西:新闻、消息、音乐、图片……。然而如果问:“信息是什么?”那就难以回答了。因为你可以说:“音乐是信息”,但你不能说:“信息是音乐”;你可以说:“照片是信息”,但你不能说:“信息是照片”。要给信息下个定义是不容易的。‘信息’的定义需要从许多具体信息表现形式中抽象出它们的共性来。
中国古人理解的信息其实很简单,正如李清照的名句中所述:“不乞隋珠与和璧,只乞乡关新信息。”,看来这只是通俗意义上的‘音讯’或‘消息’而已。
现代人比较考究,注重科学。因此而成天琢磨:信息到底是什么?信息是主观的还是客观的?是相对的还是绝对的?
昨天北京发大水,你将这个消息,用电话告知你南京的两个朋友,可是,A说他早知此事,B原来不知晓,因此,这条消息对A来说,没有增加任何信息,对B来说就增加了信息。B抱着的小狗好像也听见了电话中的声音,但它不懂人的语言,这对它来说也不是信息。
信息是模糊的还是精确的?
你走到树林里,艳阳高照、和风习习、桃红李白、燕飞鸟鸣,大自然传递给我们许多信息,这些算是没有精确度量过的、模糊的信息。
信息和‘知识’是一码事吗?也应该不是。众所周知,我们的信息化社会虽然充满了信息,但其中“鱼龙混杂,良莠不齐”,以至于大家都希望自己的孩子不要整天沉迷于网上,许多人抱怨:“信息虽发达,知识却贫乏”。所以,信息并不等同于知识!
文学家、哲学家、社会学家……,各家各派都对‘信息’有不同的理解和说法。这其中,物理学家们,是如何理解和定义信息的呢?
物理学家们的研究对象是物质和物质的运动,即物质和能量。在他们看来,信息是什么呢?是否能归类进这两个他们所熟悉的概念呢?
信息显然不是物质,它应该是物质的一种属性,听起来和能量有些类似,但它显然也不是能量。物理学中的能量早就有其精确的、可度量的定义,它衡量的是物体(物质)做功的本领。信息与这种‘功’似乎无直接关联。当然,我们又知道,信息是很有用的,个人和社会都可以利用信息来产生价值,这不又有点类似于‘做功’了吗?对此,物理学家仍然摇头:不一样啊,你说的好像是精神上的价值。
信息属于精神范畴吗?那也不对啊,从科学家们的眼中看来,信息,仍然应该是一种独立于人类的主观精神世界、客观存在的东西。因此,到了最后,有人便宣称说:
“组成我们的客观世界,有三大基本要素:除了物质和能量之外,还有信息。”
美国学者、哈佛大学的欧廷格(A.G.Oettinger)对这三大基本要素作了精辟的诠释:
“没有物质什么都不存在,没有能量什么都不会发生,没有信息什么都没有意义。”
尽管对“信息是什么?”的问题难有定论,但通过与物理学中定义的物质和能量相类比,科学家们恍然大悟:信息的概念如此混乱,可能是因为我们没有给它一个定量的描述。科学理论需要物理量的量化,量化后才能建立数学模型。如果我们能将‘信息’量化,问题可能就会好办多了!
于是,在二十世纪40年代后期,一个年轻的科学家,后来被人誉为信息和数字通讯之父的香农,登上了科学技术的历史舞台。
香农的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论。香农的信息论为明确什么是信息量概念作出了决定性的贡献。感谢香农,在定量研究的科学领域中,他将原来模模糊糊的信息概念,天才地给以了量化,使我们大家在解数学问题时也能‘牛刀小试’。
其实香农并不是给信息量化的第一人,巨人也得站在前人的肩膀上。1928年,哈特利(R.V. H. Harley)就曾建议用N log D这个量表示信息量。1949年,控制论创始人维纳将度量信息的概念引向热力学。1948年,香农认为,信息是对事物运动状态或存在方式的不确定性的描述,并把哈特利的公式扩大到概率不同的情况。
信息论中的信息,和日常用语中的信息意思有所差别。香农将信息中的「意义」剥离。举例来说,在信息论中,red仅仅是「red」这个3个字母组成的字符而已,而至于red所代表的「红色」,不是信息论所关注的内容。换言之,信息论只是负责将「red」从Alice这里复现到Bob这里。至于「red」在Alice这里代表「红色」而在Bob那里代表「绿色」,不是信息论关心的事情。
先通过几个熟知的概念区分一下信息:




其次是通信相关的概念:


(2)信息的度量
首先我们给出几个主要概念的定义,接下来给出相应解释

随机事件的自信息
自信息有以下几个问题值得关注
- 随机性与概率的关系
- 概率为1和概率为0的事件的信息量
- 两个独立事件的联合信息量
实际上,经过严谨的数学推论,可以把以上几个问题作出归纳:
image.png
有了以上认识后,对自信息作出以下定义:
image.png
其中代表两种含义,事件发生前,对于事件的不确定性的描述,以及事件发生以后,所带来的信息量。
image.png
image.png
为了能够更好理解互信息,我们接下来先引入信息熵的概念。
信息熵
自信息只能代表一个随机事件带来的信息,当我们需要描述一个随机变量的所包含的信息,或者说度量一个随机变量的不确定度时,就需要使用熵来定义。

在此基础上可以做出以下定义:



上图句子开头是“对称性”






在符号表达上,如果采用作为底,则熵表示为
,实际上易证,有
也就是说我们可以任意改变定义中对数的底,只要乘以一个合适的常书因子,就可以自由变换。
接下来我们尝试诠释熵的现实意义:




联合熵
当我们把单个随机变量推广到两个随机变量,也就产生了联合熵的概念。

需要注意的是,当X,Y不相互独立时,X和Y的联合熵大于X和Y各自的熵之和。
条件熵

一些重要的性质

证明如下:

第二个也可采用类似方法证明

注意这里第一个H(X|Y)应为H(X,Y)


下面引入机器学习里两个对熵的定义
相对熵



分析:


交叉熵



相对熵的关系

|X|表示X的势
证明:


小结
- 信息熵是衡量随机变量分布的混乱程度,是随机分布各事件发生的信息量的期望值,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大;信息熵推广到多维领域,则可得到联合信息熵;条件熵表示的是在 X 给定条件下,Y 的条件概率分布的熵对 X的期望。
- 相对熵可以用来衡量两个概率分布之间的差异。
- 交叉熵可以来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。
互信息及其他

互信息




以通信角度看待互信息


多变量下的互信息


互信息的性质:



链式法则



与互信息有关的一道题

首先是可达性的证明(accessibility),也就是找到一个解:

其次是结论的逆的证明(converse),也就是不可能超过某个边界

将以上两个证明联立在一起,解在边界上时,也就找到了问题的最优解。
凸性
凸集与凸函数

对于凸集而言,任意两个元素连线的所有元素都在集合内部
而非凸集,其连线的所有元素有可能不在集合内部

注意到这里定义为下凸和上凸函数,不同于别处的凹凸函数的定义。

其中0<=<=1
凸函数的性质:

这里的凸函数特指下凸函数

在判断一个函数的凸性时,如果函数f在某个区间存在非负的二阶导数,则f在该区间上下凸,如果二阶导数为负则上凸。
重要不等式

“严格”应该是指落在弦的下方或上方,而不能落在弦上。也就是二阶导数不为零。
举例:


连上之前讲过的共有如下几个重要不等式:
