熵:对不确定性建模框架
【书籍/课程名称】熵:对不确定性建模
【类型】
书籍目录框架/课程框架
【关键词】
* 熵,不确定性,信息熵,公理基础,均衡,周期性,随机性,复杂性
【框架】
【一、概念】
* 【熵】
* 熵是用来度量与结果的概率分布相关的不确定性的。因此,它也可以衡量意外。
* 熵是对不确定性的一个正式测度。利用熵,我们可以证明不确定性、信息内容与惊喜之间的等价性。
* 熵与方差不同,方差度量一个数值集合或数值分布的离散程度。不确定性与离散程度有关,但是两者并不是一回事。在具有高不确定性的分布中,许多结果的概率都是有意义的,这些结果并不一定有数值,具有高离散度的分布则只是具有一些极端的数值。
* 给定取值范围为从1到8的整数的若干结果,能够使最大化熵的分布对每个结果赋予相同的权重。而能够使方差最大化的分布则是以1/2的概率取值1、以1/2的概率取值8。
* 熵是在概率分布上定义的。因此它可以应用于非数值数据分布,熵在数学上等于概率与它们的对数之和的相反数。
* 【信息熵】
* 我们先从信息熵这种特殊情况开始讨论。对于信息熵,可以把它理解为根据随机抛硬币的结果来衡量不确定性的一种方法。
* 为了计算出一个分布的信息熵,我们只需求得所有结果(或者像在前面那个例子中那样的结果序列)需要提出的问题的期望数量的平均值。
* 信息熵就对应着“是或否”问题的期望数量。如果我们不得不提出很多问题,那么分布就是不确定的。而知道了结果,也就揭示了信息。
* 【熵的一般表达与公理基础】
* 为了得到熵的一般表达式,我们采用公理化的方法。正如夏普利值的公理基础一样,这些公理对存在性的贡献大于它们本身的合理性。这些公理不仅仅是可辩护的,事实上,它们是难以辩驳的。
* 数学家克劳德·香农对他给出的这种测度施加了四个条件。
* 前三个条件很容易理解,它必定是连续的和对称的,而且在所有结果以相同的概率发生时最大化,同时在某些结果上等于零。
* 第四个条件可分解性则要求在具有m个子类别的n个类别上定义的概率分布的熵,等于各类别上的分布的熵与每个子类别的熵的总和。两个组合随机事件的不确定性理应等于每个事件的不确定性之和。
【二、最大熵分布和假设】
* 我们可以使用熵来表征分布。在没有控制或调节力量的情况下,一些群体可能会向最大熵漂移。给定特定的约束条件,例如不变的均值或方差,就可以解出最大熵分布。
* 最大熵分布:最大熵分布的形状取决于各种约束条件。
* 均匀分布:给定范围[a,b],使熵最大化。如果假设了一个最小值和一个最大值,那么均匀分布会使熵最大化。无差别原则(principle of indifference)可以证明假设均匀分布的合理性。如果只知道范围或可能集,那么就应当予以无差别的对待。
* 指数分布:给定均值μ,使熵最大化。在某些情况下,我们可能知道分布的均值,也知道所有值都必定是正数。给定这些约束条件,最大熵分布必定具有长尾,因为我们要将分布置于更多的值上,从而必须使少数高值结果与许多低值结果保持平衡。不难证明,熵最大化分布是一个指数分布。
* 正态分布:给定均值μ和方差σ2,使熵最大化。如果我们确定了均值和方差(并且允许出现负值),那么最大熵分布则是正态分布。
【三、利用熵测度对经验数据分类】
* 【四种分类】
* 计算机科学家、数学家斯蒂芬·沃尔弗拉姆(Stephen Wolfram)给出了经验数据四大类别:均衡、周期性、随机性和复杂性:
* 放在桌子上的铅笔处于均衡状态;
* 绕太阳运转的行星处于循环当中;
* 抛硬币的结果序列是随机的,纽约证券交易所的股票价格也是近似随机的;
* 一个人大脑中的神经元发放则是复杂的:它们既不会随意发放,也不会以某个固定的模式发放。
* 【分类依据】
* 可以利用熵的概念来区分四类结果。我们可以将看似随机的复杂模式和真正的随机性区分开来,并且可以分辨出哪些现象看起来像是有一定模式的,但事实上是随机的。
* 平衡结果没有不确定性,因此其熵等于零。
* 周期性过程具有不随时间变化的低熵。
* 完全随机过程具有最大的熵。
* 复杂性具有中等程度的熵,因为复杂性位于有序性和随机性之间。
* 为了对时间序列数据进行分类,我们需要先计算出不同长度的子序列中的信息熵。
* 【熵的意义】
* 我们可以将熵测度用于任何实际应用,一个系统中的熵的本质,不能简单地说好,也不能简单地说不好。我们想要多少熵,取决于具体情况。
* 在制定税法时,我们可能需要一种均衡行为模型,并不希望有随机性。在规划城市时,我们可能会希望看到复杂性,均衡或者周期性都会显得过于平淡。我们希望一个城市充满生机活力,为偶然的相遇和互动提供无限机会。在这种情况下,更多的熵会更好,但是又不能太多。我们不喜欢随机性,随机性会使计划变得非常困难,并可能导致我们的认知能力崩溃。最理想的情况是,世界会产生适度的复杂性,以保证我们生活在一个有趣的时代。