15 眼见不为实：你眼中的世界，其实只是大脑猜出来的

2021-08-03 本文已影响0人颜路在路上

感知到底有多复杂

早年，人工智能之父马文·明斯基希望能做出一个具有感知功能的机器人。这个机器人要认识人，要分得清桌子椅子，要会捡东西等等。明斯基想了一下说，"这是一个棘手的问题。这需要一个研究生花整个暑假才能完成。"他当时显然想得太简单了。后来，明斯基在机器感知研究领域取得了巨大的成就，但是，关于机器人视觉的研究以及关于制造能够确认与识别物体的机器的尝试，至今尚未达到一个一岁儿童的感知水平。

让我们从最“简单”的感知问题说起：人是如何看见东西的。

你一回头，看见她在草地上坐着冲你微微一笑，长发飘飘。

让我们试着分析一下这个简单的视觉事实。首先，我们从生理上出发。你的双眼是两个球状物体，眼球壁内层是一层透明的视网膜，视网膜由大量神经细胞组成。这些神经细胞会因为感受到特定的刺激（光线）而进行发放信号。发放，不发放，发放，不发放……无数个神经细胞接受刺激后进行不同的信号发放选择，bingo，你就看到了一幅画面。神经细胞发出的信号可以被视为一个特定的数组集合。这些数字是如何转变成我们看到的物体、人物、动作以及事件的呢？这才是真正棘手的难题。

视网膜是个二维平面。而你要在这个二维平面的基础上，延展出一个三维的立体世界。这在数学上是不可能实现的。这意味着什么呢？这意味着在我们的大脑中，对于投映在视网膜上任何二维平面图像，都存在着与之对应的三维图像。想象一组光线在你的视网膜上排列着，那在现实中与之对应的是何种实物景象呢？我们思考这一问题的合理解释是——我们拥有关于这个世界如何运作的无意识猜想，我们的心理拥有某些关于事物如何存在的假设，我们的大脑数据库中早已存储了大量的三维图像。这些假设让我们能够从二维数字到三维世界一一对应的映射中做出有根据的猜测。传递到你眼中的信息只是视觉形成所需信息的冰山一角，传递到你眼中的信息只是供你作出某种假设并得出结论的一个依据而已。你所形成的完整视觉（美女在草地上坐着冲你微笑），其实只是一个可靠的推断性结论。事实上，我们永远不会“看到”，我们从来都是在脑海中“形成画面”。康德在18世纪就提出了“物自体永远不可知”的论断，是何等智慧。

你自动且直觉地分辨出不同物体。你能分辨出这是一个人，那是一座房子，有很多鸟，还有树。你是怎么做到的呢？别以为这是一件极其简单的事情。事实上，让计算机从一个场景中分辨出不同的物体，即图像识别技术的实现，是极其困难的。我们的视觉究竟是如何做到轻易分辨出不同物体的？目前的答案仍不确切。

简言之，我们的视网膜是二维平面，但我们却要用它来识别三维的世界。我们怎么办到的？一种靠谱的答案是，通过线索以及猜测。我们的视觉系统会预先采用一些假定。既然是假定，那就不一定正确。在视觉错觉中，这些假定就是错的。大量的视觉错觉支持“眼见不为实”，同时也间接证明了上述关于视觉形成的理论。

缪勒-莱耶错觉（箭形错觉）

下面的图中，中间线段实际上一样长，但人们会觉得上面的中间线段要比下面的中间线段长。对此的一种解释是，场景中其他的线段使你的视觉系统对距离作出了假定，然后你会通过距离判断来修正长短。你看到的这两条线段，它们在你的视网膜上所占空间相同，但你会认为距离远的那条比较长，因为你脑中会假定“如果这两条线段都这么长，但上面这条距离更远些，那么它肯定要比下面那条离得较近的线段更长”。

谢巴德旋转桌

下图的两张桌子，哪个桌面更狭长，哪张桌面更宽大？你可能会说，左边的更狭长，右边的更宽大。而实际情况是，两张桌面大小形状是完全一样的。

令人迷惑的车棚

关于平面视觉错觉的例子很多很多，请大家自行google。有的同学可能觉得平面视觉错觉不是很明显。给大家看一个三维视觉错觉的例子。强迫症患者慎点——看完我简直想买一个模型看一看，不，摸一摸到底怎么回事！

视频链接：令人迷惑的车棚 https://v.qq.com/x/page/a0330raitp6.html

在这个视频中，我们看到一个拱形的车棚，在镜子里却是波浪形的。其实，真实的车棚形状既不是拱形也不是波浪形。单独一个角度的图像并不足以提供充分的空间信息，而我们的大脑在解释图像的时候偏爱“直角”，大脑会假定“车棚的边缘线是处于垂直于地面的平面之中的”。这样一来，我们就产生了车棚是拱形或波浪形的错觉。

康德认为，“事物本身”和“我眼中的事物”是不一样的。按照康德的说法，我们永远无法确知事物本来的面貌——这多么让人沮丧呀。好在康德还补充道：人类理性的特性之一就是会寻求事件的原因——总算，不至于让我们过得太无聊。

15 眼见不为实：你眼中的世界，其实只是大脑猜出来的

感知到底有多复杂

缪勒-莱耶错觉（箭形错觉）

谢巴德旋转桌

令人迷惑的车棚

猜你喜欢

热点阅读