最优停止理论：你会及时收手，还是继续行动？

2021-06-11 本文已影响0人润东成长

这是我的第 201 天分享

全文共约 2400 字，阅读完共需约 7 分钟

昨天，我们了解了什么是“最优停止理论”（37%法则），以及它是如何推导出来的。今天，我们继续深入下去，看看在生活中与之相关的最优停止理论的“变体”都有哪些。

01 继续还是停止？

假如你参加了一个活动，每闯一关，你都有90%的概率获得100元奖金，同时，你还有10%的概率失去所有的奖励。你会选择在哪一关停止？

思考这个问题的时候，建议你不要仅靠大脑思考。拿出一张纸，我们写下计算过程，用数据说话。

当第一次闯关的时候，90%的概率获得100元，10%的概率损失0元。计算出本关奖励的期望值如下：

① 100*0.9 - 0 * 0.1 = 90

第一次，很安全，最差的结果也就是一分不得而已。

我们再来看第二次的结果。

当我们开始闯第二关的时候，我们手中已经有100元的奖励了。此时我们有90%的概率额外获得第二关的奖励100元，或者有10%的概率损失我们在之前已经获得的100元。

计算出本关奖励的期望值如下：

② 100 * 0.9（本关有90%的概率获得100元） - 100 * 0.1（有10%的概率损失掉之前获得的所有奖励） = 80

同样的道理，如果选择继续闯第三关，计算出奖励的期望值如下：

③ 100 * 0.9 - 200 * 0.1 = 70

第四次的结果如下：

④ 100 * 0.9 - 300 * 0.1 = 60

有没有找到一定的规律？

每闯一关，我们额外获得的奖励期望值是固定的，100 * 0.9，但是随着我们闯关层数的增加，我们的损失期望值却在不断增多。

现在你来思考一下，什么时候，我们的期望收益值最大呢？

是不是当再往下一关的收益与损失持平的时候呢？因为如果此时选择继续闯关，那么损失的就超过当前获得奖励的速度了。

针对我上面的例子而言，当闯到第十关的时候，损失和收益的速度持平：

⑩ 100 * 0.9 - 900 * 0.1 = 0

此时本关收益变为0，表示我们应该收手了。如果选择继续闯关，本关收益就开始变成负值。

⑪ 100 * 0.9 - 1000 * 0.1 = -10

所以，对于这个例子而言，当我们闯到第9次，就应该收手了（第10次“本关收益”已经变为0，所以没必要再尝试一次）。

给已经阅读到这里的你点一个大大的赞，你已经开始深入思考了哦~

我们能不能把这种思路推广开，找到一个公式，只要给出的每一关获胜和失败的概率，我们就能算出该在第几次收手，收益最大呢？

在写这篇文章之前，我已经给你算好了。

我们假设每一关获得奖励的概率为 P(胜)，失败的概率为 P(败)，每一关如果获胜，获得的收益为 m 。每一关的“当关收益”如下：

第一次尝试：m· P(胜) - 0·m·P(败)

第二次尝试：m· P(胜) - 1·m·P(败)

第三次尝试：m· P(胜) - 2·m·P(败)

......

第n次尝试：m· P(胜) - (n-1)·m·P(败)

接下来，我们就要看，什么时候“当关收益”为0，就是我们该收手的临界点。

“当关收益”为0时，m· P(胜) - (n-1)·m·P(败) = 0

我们算出来， n = [P(胜)/P(败)] +1

此时，“当关收益”为0，也就是说，我们应该在第n-1次就收手，即第[P(胜)/P(败)]次。与我之前提的例子一样，下一关收益为0，所以我们提前一关就可以收手了。

最后，我们得出结论，闯关的次数，应该等于成功的概率和失败的概率的比值。

如果每一关成功的概率是80%，失败的概率是20%，那么我们应该在第4次结束后就收手。如果成功的概率和失败的概率各占50%，那么我们第1次尝试后，就应该收手了。

这个例子和游戏甚至和我们生活中的某些情况特别像，当你闯完一关之后，你可以决定带着战利品返回城镇，或者继续闯关下去，不过一旦失败，所有的战利品都没有了。

你会为了“贪婪”继续下去，还是及时收手，落袋为安呢？

02 如何找到最优停车位置？

如何找到最优停车位置？

假如你现在开着一辆车去超市，正准备停车的时候，你发现，前面乌央乌央全都是车。你会选择把车停在哪里呢？

我们都知道，选择靠近超市门口停车是最方便的，因为我们可以出来直接开车就走，而不是还得走路到停车的地方，额外再开一段路，费时间费油。

这和我昨天提到的“猴子捡香蕉”的例子很像，都是需要对后续未知的事情做一个取舍，且只能选择一个。

这两个例子的明显不同是，之前的选择能否“复活”。

猴子一旦选择了新的香蕉，之前的香蕉就必须丢弃，而且无法找回；而停车不一样，如果本来想停到靠近超市的地方，开过去发现没有空余车位了，我们是可以倒回来，选择其他的车位的。

除了这一点区别以外，还有一个区别，那就是，前者有“保底收益”，后者没有。

对于猴子来说，就算最后没有拿到最大的那个香蕉，起码手里还可以有一个香蕉。但是对于停车来说，情况就有一些不同了。

如果司机一直往前开，没看到有空的车位，这时候如果倒回去，有可能仍然没有车位。此时恐怕就得去几公里之外的，别的地点停车。对于司机来说，司机并没有“保底停车位”。

那么，对于这种情况，如何找到我们的最优解呢？有下面几种思路，你可以参考一下。

思路① 从入口开始，只要找到一个空位，就停车。（此时，如果仍然没找到位子，仍然有几种选择，要么继续这样的循环，要么退出，去别的地方停车）

思路② 先径直开到超市门口，看有没有空位（一般没有），然后往后倒，只要看到一个空位，就停车。（此时，如果仍然没找到位子，选择同上）

思路③ 从入口开始，只要看到空位，就找到这个空位前面的空位。如果按照这样的方法没有找到空位，还是和上面一样的选择。

思路④ ......

像这种选择可“复活”，以及之前的选择是否被占据充满了不确定性的情况，37%法则可能就没那么适合了。37%法则更适用于那种，选择是一次性的情况。

尽管用不了37%法则，但是如果你把思路打开，没准儿你能想到更好的思路。

以上就是我今天的分享。我是润东，我们一起，向上生长。

参考资料：

布莱恩·克里斯汀,汤姆·格里菲斯.算法之美[M],北京:中信出版社,2018
https://zhuanlan.zhihu.com/p/90021412(如何快速找到最佳停车位？物理学家找到了最优策略)

最优停止理论：你会及时收手，还是继续行动？

猜你喜欢

热点阅读