读书笔记之《为什么伟大不能被计划》(10)
从科学的角度来看,新奇性搜索概念的一大吸引力是,它实际上可以被编成一种计算机算法,并进行可衡量的测试。这正是我们所做的
事实上到目前为止,我们已经将积极性搜索置于大量不同的场景中进行了测试。
第一项就是机器人在迷宫中的模拟实验。换句话说,我们对计算机进行编程模拟,机器人在围墙式迷宫中的行为,类似于驾驶模拟去模仿汽车上路的情况。这就好像电脑自己玩的一个简单的视频游戏,机器人模拟实验在人工智能领域很常见。因为模拟的机器人可以非常迅速的,反复尝试新的行为,而不存在器材损耗风险。
所以想象一下,一个带轮子的机器人在迷宫中尝试新奇性搜索,总是试图做出一些新举动,实验将如何开展?
基本的想法是,计算机程序可以先产生新的想法,然后机器人尝试做出相应的行为。如果该行为在机器人尝试时被证明是新奇的,那么该行为可能是有趣的,所以程序可以将其认做一个好主意。
请注意这种判断想法,只要方法与设定了具体目标的情况不同,例如如果设定的目标是让机器人从起点位置走到迷宫的终点,那么好的行为就应该是,那些机器人最终会比之前更接近迷宫终点的行为。
什么行为是好或者坏,是一个很重要的问题,因为程序将只会继续探索认定是好的想法。换句话说,新奇性搜索的希望在于,好的想法可能是通往有趣事物的踏脚石。
因此在尝试了一系列的行为之后,程序决定专注于测试那些看起来有趣的行为,为了做到这一点,程序将采用这些新奇的想法并进行微调,进而观察是否会出现更有趣,更新奇的东西。
如果机器人绕过一堵从未绕过的墙,那么对该行为的微调就是可以让机器人走的更远。另一方面,如果机器人做了以前做过很多次的事情,比如说撞墙,那么这个行为会被忽略,不会被进一步探索。
这种专注于如何在迷宫中实现更新奇想法的方式,与任何其他类型的创造性思维相同。即你可能有一个有趣的想法,然后在思想在考虑一段时间后,发现他启发了其他的有趣的想法。
这将是实验变得更耐人寻味的地方。想象一下,如果机器人不断的尝试新的行为,并进一步探索是新奇的行为,他就与我们在本章前描述的那个机器人有点像。一开始总撞墙,然后知道了如何该避免撞墙,最后学会了穿过门洞。
问题是如果我们持续这样新奇性探索的过程,机器人终会不会发现一个能够破除整个迷宫的行为?
换句话说,一个人驱动机械能从起点顺利走到终点的行为,哪怕走出迷宫并不是他的目的。
实验结果表明答案是肯定的。
如果我们运行一段时间的新奇性探索算法,计算机将持续产生驱动机器能通过整个迷宫的行为,这个实验结果很有趣。因为没有人编写让机器人顺利通过迷宫的程序,更重要的是穿越迷宫从来都不是一个基地目标,该程序甚至不知道该目标的存在。因此有趣的是,新奇性搜索最终发现的一个看起来相当智能的行为,尽管从来没有人告诉他应该怎么做。
但是情况从这里开始变得更加复杂,因为新奇性探索并不是我们利用这个机器人走出迷宫程序进行测试的唯一算法。
我们还利用机器人走迷宫来测试一个传统的基于目标的探索方法。在这个测试中,一个驱动机器人更接近终点的目标的行为,是否被认为的是更好的行为?
换句话说,计算机将进一步探索那些驱动机器人更靠近目标的行为。这与大多数目标驱动型活动的行为方式相似,即,我们不断的将时间和精力投入到那些能够使我们更接近目标的行为上。
如果你是目标论的粉丝,并且认为目标是实现任何伟大成就不可或缺的因素,那么你可能会认为基于目标的方法在发现通往迷宫终点的行为方面比先进性搜索更重要的,更可靠的。因为后者甚至没有任何设定的目标。
但实验结果却恰好相反,新其性搜索在探索走出提供的行为方面要更可靠的多
具体来说,我们重复了40次新急性搜索的迷宫实验机器人,有39次实验中找到了终点。而40次基于目标的迷宫实验中机器人成功了3次。
试图找到走出迷宫的行为,在大多数情况下都失败了。而不尝试在这个目标的行为却一直成功。这个结果的确出乎意料。
但是不是因为实验设置存在一些缺陷呢,正如你可能猜到的那样,自从最初的迷宫实验以来,科学界已经针对这个问题进行了多次辩论。现在已经有很多科学文献提供了此类的讨论的大部分细节,讨论结果表明这个事业有着坚实的基础,并遵循那本书迄今为止一直在强调的逻辑。
即只关注目标会导致欺骗性结果。看是离目标更近的机器人,实际上经常走进死胡同。这些死胡同与通往真正解决方案的正确路径相去甚远。
我们可以在途中看到这些死胡同,他们就像其他的欺骗性陷阱一样,实际上与中国只靠这种整蛊玩具没有本质的区别。看起来能让机器人更接近终点的方向,最终却成了错误的方向。
另一方面,新奇性搜索不存在欺骗性问题,因为它连目标都没有,也就谈不上所谓的目标欺骗性。他只是尝试不断的发现带来新行为的行为,最终其中一个新行为恰好帮助机器人解决了迷宫难题。
有些人认为迷宫中的欺骗行为太明显了,他被故意设置成一个迷惑机器人的行为。但实际上他并不比任何其他欺骗性的问题更具迷惑性。
这意味着几乎所有有趣的问题都是如此,不过为了说服那些人持有怀疑态度的人,我们确实在一个更自然的场景中尝试了新奇性探索的行为,双足机器人。
换句话说,我们试图为一个拥有双腿的模拟机器人寻找新奇的行为。
如你第一反应,双足机器人想做什么?那么你就忘了新奇性搜索并不试图解决任何特殊的事情,他只是观察双足机器人在做什么。正在尝试什么新行为,而这些行为在被发现时都是新奇的,因此如果双重机器人摔倒了,只要他此前从未以同样的方式摔倒过。这就是一个好的行为。
你认为一个寻找新奇性双足机器人最终会做出什么行为呢?
答案是,双足机器人会学会行走。
并且新奇探索中的双足机器人,学会行走的方式比设定了以行走为目标进行学习的情况更好。换句话说,一个尝试性越走越远的双足机器人行走的距离,反而不如一个试图一次又一次尝试新奇动作的双足机器人。不出所料,背后的原理依然是目标的欺骗性。