深度学习

博弈论(1)—介绍博弈论基本思路和概念

2021-02-22  本文已影响0人  zidea
cover.png

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和简书使用头像一致。

博弈论

今天要说的博弈论是行为主义的第三阶段,在博弈论中,行为主义的智能体是人的本身,关于智能体这一点与强化学习有所不同。博弈论中智能体要优于之前强化学习中的智能体,更接近人类

在行为主义我们主要研究智能体与环境交互,智能体根据环境反馈来更新自己进行学习。

什么是博弈

博弈的定义

在生活中,我们或多或少都听过博弈,那么能不能回答一下你对博弈认识呢?好我们先从字面上理解一下博弈,其中的,大家可能会联想到赌博,而自然会想到对弈。

其实今天我们讨论的博弈是独立于运气、技术的一种策略。很多情况下,更多时候靠策略取胜而不是技术,有的时候大家技术不相上下,难分伯仲时候策略就是称为主导比赛的主要原因。例如篮球中的挡拆战术就是属于博弈,或者比赛要结束时双方比分相差不多时,落后方在比赛最后关头,通通过犯规犯规战术来赢得一次进攻机会来取得比赛最后胜利。策略是为了获胜所需要的一种智力技巧。技术都差不多,大家都是考虑策略来赢得比赛。

策略博弈

我们对照强化学习中策略,在强化学习中策略是从状态到行为映射函数,而在博弈中策略是一种确定性策略,策略本质上涉及与他人的相互影响。其他人在同一时间、对同一情形也在进行类似思考。

博弈论就是分析这样的交互式决策过程,是关于相互作用情况下的理性行为的科学,而强化学习是时序上决策过程。

理性行为

在博弈中真的总能获胜吗? 有必胜策略吗?

估计答案你也已经猜到了,没有必胜策略,使用合适的策略可以让我们赢得比赛概率更大而已。例如玩剪刀、石头和布,这就是博弈,没有必胜策略。

博弈策略的分类

009.jpg

博弈的要素

一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。 其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。 所有的博弈问题都会遇到这三个要素

局中人(Players)

什么样的人是博弈中局中人,简单理解为参与博弈的人,但是需要满足以下几个条件,

策略集合(Strategies)

策略集合有点像强化学习集合,也就是局中人的行为的集合,每一个策略行为方案。在田忌赛马中,田忌赛马策略集合{上中下、上下中、下中上、下上中、中上下、中下上}
\cal{S} = \{s_1,s_2,\cdots \}

效用函数(Payoff)

局势

也就是局中人的策略组合是一个局势,在一个局势就可以判断出谁赢谁loss

经典示例

通过下面几个具有代表性经典博弈论小示例给大家介绍什么是博弈中三要素,局中人、策略集合和效用函数

囚徒困境

囚徒困境是博弈论中经典问题,有两个囚徒有隐瞒未报的偷盗案件,在审问过程中每个囚徒可以选择抗拒不承认或者坦白承认。局势就是两个囚徒给出自己策略算一个局势,那么根据排列组合有(抗拒,抗拒)、(坦白,抗拒)、(抗拒,坦白)和(坦白,坦白) 如果两个人都抗拒不承认每个会判 1 年,如果两个人都坦白每个人会被判 3 年,如果一方坦白另一方抗拒,抗拒判 10 年而坦白会被释放

抗拒 坦白
抗拒 -1,-1 -10,0
坦白 0,-10 -3,-3
性别之战

夫妻两个人看电视,妻子喜欢看舞蹈(换成韩剧也行),而丈夫喜欢看足球。如何两个达成协议都看舞蹈或者足球,两个人都会有回报,而没有达成一致则双方收益都为 0。

002.jpeg
舞蹈 足球
舞蹈 1,2 0,0
足球 0,0 2,1

剪刀、石头和布(Rock-paper-scissors)

003.jpeg
剪刀 石头
剪刀 0,0 -1,1 1,-1
石头 1,-1 0,0 -1,1
-1,1 1,-1 0,0
上一篇下一篇

猜你喜欢

热点阅读