《信息论40讲》信息的应用1——交叉验证与等价信息
——吴军《信息论40讲》读书笔记
这一部分主要介绍信息论的应用。本节介绍一下交叉验证和等价信息的应用。
一、交叉验证
1、交叉验证的概念
在我们的生活中,绝大部分时候,一个维度的信息是很难消除所有不确定性的,而解决这个问题最好的办法,不是把那个维度的信息搞得更准确,而是要用其它维度的信息进行交叉验证。
我们在中学时学习数学会有这样的经验。当我们在解方程时要想复查一道题是否做对了,如果顺着原来的思路将解题的过程再看一遍,常常是很难查出错误的,最有效的方法是把方程的解代回到原来的方程中,看看方程两边是否相等。
2、交叉验证对生活的指导意义
交叉验证是我们每一个人必须掌握的做事方法,它可以让很多难题迎刃而解。
在中国的历史学界,王国维的地位极为崇高,因为他开创了历史研究的新时代。在王国维之前,几乎所有的学者都是通过研究史料来还原历史,然后写上自己的看法,后面的学者再从前面学者的注释中得到启发,继续研究。王国维先生通过考古(比如研究新挖掘出来的甲骨文)来发现新的史实,然后用考古得到的信息和文献记载中的信息进行交叉验证,也就是“二重证据法”,如果它们能得到相同的结论,说明是可信的,否则存疑。王国维先生的的贡献是开创性的。在他之后,学者们对中国历史的研究有了一个飞跃。
马未都先生说“司马光不可能砸缸”,其实也是用了交叉验证的方法。
虽然今天很多人不需要研究历史,但是我们在使用信息时,应该养成一个习惯,从多个维度进行交叉验证。
硅谷有一位很有名的投资人,失误率很低。他在决定投资之前,除了向其他投资人一样认认真真做背景调查之外,还会做一件事,晚上9点之后到那家公司外面去转转,看看停车场里停了多少辆车,楼里面是否有很多人在工作。这位投资人的做法其实就是换了一个维度对创始人们提供的信息进行了交叉验证。
我们知道今天大数据的威力。比如当社交网络在掌握了你很多的数据之后,它对你的判断极为准确。原因是什么?原因就是它掌握了有关你的多维度的信息,从很多方向上对你进行了交叉验证。
就像“大数据”和“大量数据”是两回事一样,前者是多维度的,后者可能只是数据的体量大,并不等于信息多。
在交叉验证中,什么样的信息组合最有效呢?就是垂直正交信息,因为当两个不同维度的信息正交时,它们的共同作用能够最大程度地降低信息熵。
3、用交叉验证来理解“跨界”的含义
很多人把跨界理解为同时做很多种不同的事情,这其实很难做好。我对跨界的理解是,从另一个领域来回望所在领域的问题,就容易准确地找到答案。
很多人提高工作质量的想法,就是在一个维度上将刻度画得越来越细,因为这样可以更精确。但是,如果一个维度从头到尾范围很大,刻度画得再精细也并不能帮助我们确定答案的范围。这时候,引入另一个维度的信息帮助定位显然更有效。这就是跨界的意义所在。
当然,定位了答案的范围后,我们还是需要一个刻度很准的尺子,找到答案所在的那个点。这就是具有大局观和能够精深钻研两者的关系。
二、等价性:如何从等价信息里找答案?
1、等价信息的作用
前面讲过,保密的关键在于不能够提供看似无关,却有助于消除不确定性的信息。
对于一个未知的黑盒子,我们了解它里面的情况需要信息X,但是我们可能无法获得它,不过如果我们获得了信息Y,也同样能够了解里面的情况。于是,我们就说在了解这个黑盒子时,信息Y等价于信息X。
利用等价信息,可以破解很多原本无法破解的谜团。
2、等价信息和相关信息不同
信息的等价性条件其实是很严格的。如果我们说Y等价于X,那么从Y就能完全推导出原本需要X才能得到的信息。信息的等价性和信息的相关性不同,找相关性的要求要宽松得多。
分清楚等价性和相关性,对于我们理解今天的很多技术有很大帮助。
严格来讲,外在特征只能作为相关信息使用。人不仅自身的特质具有很多等价信息,可以搜集到,人的行为也有很多等价信息或者相关信息,可以帮助区分不同的人。
3、等价信息给学术研究带来了新的技术手段
不仅人的具体行为可以被跟踪,人做事的风格习惯也可以通过寻找等价信息而识别出来。比如说,每一个作家(特别是专业作家)有自己的文风,这其实是很难改变的。
通过文风,你可以看出一部作品是原创的,还是假借他人之笔创作的。在文学史上,胡适先生就曾经根据写作视角的区别,考证出《红楼梦》并非出自曹雪芹之手。
了解了各种信息彼此之间是等价的,还是相关的,然后在不同应用场景就知道该使用什么信息,而不会过度依赖并不可靠的信息了。