读书简友广场

最优停止理论:你会及时收手,还是继续行动?

2021-06-11  本文已影响0人  润东成长

这是我的第 201 天分享

全文共约 2400 字,阅读完共需约 7 分钟

昨天,我们了解了什么是“最优停止理论”(37%法则),以及它是如何推导出来的。今天,我们继续深入下去,看看在生活中与之相关的最优停止理论的“变体”都有哪些。

01 继续还是停止?

假如你参加了一个活动,每闯一关,你都有90%的概率获得100元奖金,同时,你还有10%的概率失去所有的奖励。你会选择在哪一关停止?

思考这个问题的时候,建议你不要仅靠大脑思考。拿出一张纸,我们写下计算过程,用数据说话。

当第一次闯关的时候,90%的概率获得100元,10%的概率损失0元。计算出本关奖励的期望值如下:

① 100*0.9 - 0 * 0.1 = 90

第一次,很安全,最差的结果也就是一分不得而已。

我们再来看第二次的结果。

当我们开始闯第二关的时候,我们手中已经有100元的奖励了。此时我们有90%的概率额外获得第二关的奖励100元,或者有10%的概率损失我们在之前已经获得的100元。

计算出本关奖励的期望值如下:

② 100 * 0.9(本关有90%的概率获得100元) - 100 * 0.1(有10%的概率损失掉之前获得的所有奖励) = 80

同样的道理,如果选择继续闯第三关,计算出奖励的期望值如下:

③ 100 * 0.9 - 200 * 0.1 = 70

第四次的结果如下:

④ 100 * 0.9 - 300 * 0.1 = 60

有没有找到一定的规律?

每闯一关,我们额外获得的奖励期望值是固定的,100 * 0.9,但是随着我们闯关层数的增加,我们的损失期望值却在不断增多。

现在你来思考一下,什么时候,我们的期望收益值最大呢?

是不是当再往下一关的收益与损失持平的时候呢?因为如果此时选择继续闯关,那么损失的就超过当前获得奖励的速度了。

针对我上面的例子而言,当闯到第十关的时候,损失和收益的速度持平:

⑩ 100 * 0.9 - 900 * 0.1 = 0

此时本关收益变为0,表示我们应该收手了。如果选择继续闯关,本关收益就开始变成负值。

⑪ 100 * 0.9 - 1000 * 0.1 = -10

所以,对于这个例子而言,当我们闯到第9次,就应该收手了(第10次“本关收益”已经变为0,所以没必要再尝试一次)。

给已经阅读到这里的你点一个大大的赞,你已经开始深入思考了哦~

我们能不能把这种思路推广开,找到一个公式,只要给出的每一关获胜和失败的概率,我们就能算出该在第几次收手,收益最大呢?

在写这篇文章之前,我已经给你算好了。

我们假设每一关获得奖励的概率为 P(胜),失败的概率为 P(败),每一关如果获胜,获得的收益为 m 。每一关的“当关收益”如下:

第一次尝试:m· P(胜) - 0·m·P(败)

第二次尝试:m· P(胜) - 1·m·P(败)

第三次尝试:m· P(胜) - 2·m·P(败)

......

第n次尝试:m· P(胜) - (n-1)·m·P(败)

接下来,我们就要看,什么时候“当关收益”为0,就是我们该收手的临界点。

“当关收益”为0时,m· P(胜) - (n-1)·m·P(败) = 0

我们算出来, n = [P(胜)/P(败)] +1

此时,“当关收益”为0,也就是说,我们应该在第n-1次就收手,即第[P(胜)/P(败)]次。与我之前提的例子一样,下一关收益为0,所以我们提前一关就可以收手了。

最后,我们得出结论,闯关的次数,应该等于成功的概率和失败的概率的比值。

如果每一关成功的概率是80%,失败的概率是20%,那么我们应该在第4次结束后就收手。如果成功的概率和失败的概率各占50%,那么我们第1次尝试后,就应该收手了。

这个例子和游戏甚至和我们生活中的某些情况特别像,当你闯完一关之后,你可以决定带着战利品返回城镇,或者继续闯关下去,不过一旦失败,所有的战利品都没有了。

你会为了“贪婪”继续下去,还是及时收手,落袋为安呢?

02 如何找到最优停车位置?

如何找到最优停车位置?

假如你现在开着一辆车去超市,正准备停车的时候,你发现,前面乌央乌央全都是车。你会选择把车停在哪里呢?

我们都知道,选择靠近超市门口停车是最方便的,因为我们可以出来直接开车就走,而不是还得走路到停车的地方,额外再开一段路,费时间费油。

这和我昨天提到的“猴子捡香蕉”的例子很像,都是需要对后续未知的事情做一个取舍,且只能选择一个。

这两个例子的明显不同是,之前的选择能否“复活”。

猴子一旦选择了新的香蕉,之前的香蕉就必须丢弃,而且无法找回;而停车不一样,如果本来想停到靠近超市的地方,开过去发现没有空余车位了,我们是可以倒回来,选择其他的车位的。

除了这一点区别以外,还有一个区别,那就是,前者有“保底收益”,后者没有。

对于猴子来说,就算最后没有拿到最大的那个香蕉,起码手里还可以有一个香蕉。但是对于停车来说,情况就有一些不同了。

如果司机一直往前开,没看到有空的车位,这时候如果倒回去,有可能仍然没有车位。此时恐怕就得去几公里之外的,别的地点停车。对于司机来说,司机并没有“保底停车位”。

那么,对于这种情况,如何找到我们的最优解呢?有下面几种思路,你可以参考一下。

思路① 从入口开始,只要找到一个空位,就停车。(此时,如果仍然没找到位子,仍然有几种选择,要么继续这样的循环,要么退出,去别的地方停车)

思路② 先径直开到超市门口,看有没有空位(一般没有),然后往后倒,只要看到一个空位,就停车。(此时,如果仍然没找到位子,选择同上)

思路③ 从入口开始,只要看到空位,就找到这个空位前面的空位。如果按照这样的方法没有找到空位,还是和上面一样的选择。

思路④ ......

像这种选择可“复活”,以及之前的选择是否被占据充满了不确定性的情况,37%法则可能就没那么适合了。37%法则更适用于那种,选择是一次性的情况。

尽管用不了37%法则,但是如果你把思路打开,没准儿你能想到更好的思路。


以上就是我今天的分享。我是润东,我们一起,向上生长。

参考资料:

  1. 布莱恩·克里斯汀,汤姆·格里菲斯.算法之美[M],北京:中信出版社,2018

  2. https://zhuanlan.zhihu.com/p/90021412(如何快速找到最佳停车位?物理学家找到了最优策略)

上一篇下一篇

猜你喜欢

热点阅读