日更-《模型思维》32

2023-01-27 本文已影响0人 liumw1203

## 第26章学习模型

学习模型介于理性选择模型与基于规则的模型之间。

- 理性选择模型假设人们会审慎考虑所处的环境和要完成的博弈，然后采取最优行动；

- 基于规则的模型则直接根据规则来指定行动。

学习模型假设人们会遵循规则，但是，正是这些规则使行为能够发生改变。

- 在某些情况下，行为会趋向最优行为;

- 在这些情况下,也可能生成循环或复杂的动态。

>强化学习模型

假设一个由N个备选方案组成的集合{A，B，C，D，…，N}、与各备选方案对应的奖励的集合{π（A），π（B），π（C），π（D），…，π（N）}，以及一个严格为正的权重的集合{w（A），w（B），w（C），w（D），…，w（N）}。那么，选择备选方案K的概率如下：

在选中了备选方案K之后，w（K）会增大γ×P（K）×（π（K）-A），其中γ＞0等于调整速率（rate of adjustment），A＜maxKπ（K）等于渴望水平。

美国心理学家爱德华桑代克，用实验证明了：奖励比惩罚更有利于学习。

桑代克通过小猫的实验，发现两个规律。

- 第一规律，当小猫完成一个正确的动作后，你讲理的越多，他学的越快；

第二规律，如果你给小猫一个超出预期的奖励，他就学的更快。