博弈论--完全信息静态博弈(II)
完全信息静态博弈是指参与者在做出决策之前拥有所有可能的信息,包括对手的策略和利益。因此,每位参与者可以准确地评估各种选择对自己和对手的影响。这种情况下,决策的结果是确定性的,不受随机因素影响。参与者通过理性分析和预测对手的行为,以最大化自身利益。完全信息静态博弈广泛应用于经济、政治和生活中的决策情境,帮助人们理解和优化策略选择,从而达到最佳的个人或集体结果。
一、静态博弈模型的策略式
参与人(Players): \(N\)参与人的集合;第\(i\)参与人。
博弈参与人的策略集(Strategy sets):\(S_i\)参与人的策略集,\(s_i\)参与人策略集的一个元素。所有参与人的策略放在一起,称之为博弈的策略组合,表示为\(S = (s_1, s_2, … ,s_n)\)。
博弈参与人的支付函数(Payoff): \(u_i\)参与人\(i\)的支付函数\(i\in N\);\(u_i(s_1,s_2,...,s_i,...,s_n)\)。
博弈模型的策略式可用收益矩阵来直观表示,见下图。
二、占优策略(Dominant Strategies)
在完全信息静态博弈中,由于信息完全、参与人同时行动,所以恰好用博弈的策略式描述其模型,又由于参与人有限,所以博弈的策略式可去掉参与人集合,简化为\(G = \{\{ S_i \}_{i=1}^N, \{ u_i \}_{i=1}^N \}\) ,\(|N|=n\)。
在博弈$$G=\{S_1,S_2,S_3,...,S_n;u_1,u_2,...u_n\}$$中,\(s_i^{'}\)和\(s_i^{''}\)是参与人\(i\)的两个策略,如果对于其他的参与者每一个可能的策略组合,\(i\)选择\(s_i^{'}\)的收益都小于选择\(s_i^{''}\)的收益,则称策略\(s_i^{'}\)相对于策略\(s_i^{''}\)是严格劣策略,即
对其他参与者在其战略空间 \(S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n\)中每一组可能的策略组合 \((s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)\) 都成立。
同样,若\(s_i^{'}\)和\(s_i^{''}\)是参与人\(i\)的两个策略,如果对于其他的参与者每一个可能的策略组合,\(i\)选择\(s_i^{'}\)的收益都大于选择\(s_i^{''}\)的收益,则称策略\(s_i^{'}\)相对于策略\(s_i^{''}\)是严格优策略,即
对其他参与者在其策略空间 \(S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n\)中每一组可能的策略组合\((s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)\) 都成立。
若上面关系变为
则称策略\(s_i^{'}\)相对于策略\(s_i^{''}\)是弱劣策略,反之就是弱优策略*。
理性的参与者不会选择严格劣战略,因为他对其他的人的选择没有办法判断。
占优策略:若\(s_i^{'}\)参与者\(i\)的一个策略,如果对于其他参与者每一个可能的策略组合,\(i\)选择\(s_i^{'}\)的收益都大于或等于选择\(s_i\)的收益,其中\(s_i\)是\(S_i\)任一策略,则称策略\(s_i^{'}\)是参与人\(i\)的占优策略**,即
对其他参与者在其策略空间 \(S_1,\cdot\cdot\cdot,S_{i-1},S_{i+1},\cdot\cdot\cdot,S_n\)中每一组可能的策略组合\((s_1,\cdot\cdot\cdot,s_{i-1},s_{i+1},\cdot\cdot\cdot,s_n)\) ,对任一\(s_i \in S_i\)均成立。
占优策略是指不论对手选择什么,自己的某个策略都不比其他策略差的策略。如果自己的某个策略严格强于(收益大于)任何其他策略,那么该策略还被称为严格占优策略。占优均衡是指如果每个参与人都存在占优策略,那么这些占优策略放在一起,构成了博弈的占优均衡。劣策略是指不论对手选择什么,自己都不会选择的策略。对于劣策略。可以直接剔除以简化博弈,如果剔除到最后只留下唯一一个策略组合,那么这个策略组合就是我们说的重复剔除严格劣策略均衡。
【例1】考虑下面的囚徒困境博弈
坦白 | 抵赖 | |
---|---|---|
坦白 | -8,-8 | 0,-10 |
抵赖 | -10,0 | -1,-1 |
对于选择坦白,对手无论是坦白或者抵赖,选择坦白的结果均好于抵赖,可知,坦白属于占优策略,(-8,-8)称为占优策略均衡。
【例2】考虑下面的博弈(重复剔除严格劣策略)
参与人2 | ||||
左 | 中 | 右 | ||
参与人1 | 上 | 1,0 | 1,2 | 0,1 |
下 | 0,3 | 0,1 | 2,0 |
分析上述例子,如果参与人1选择上,参与人2会选择中;如果参与人1选择下,参与人2会选择左,所以战略右就是参与人2的严格劣策略,则上述博弈变为:
参与人2 | |||
左 | 中 | ||
参与人1 | 上 | 1,0 | 1,2 |
下 | 0,3 | 0,1 |
如果参与人2选择左,参与人1会选择上;如果参与人2选择中,则参与人1会选择上,所以策略(下)就是参与人1的严格劣策略,则上述博弈变为:
参与人2 | |||
左 | 中 | ||
参与人1 | 上 | 1,0 | 1,2 |
如果参与人1选择上,则参与人2会选择中,所以策略左就是参与人2的严格劣策略,则上述博弈的最终结果就是(上,中):
参与人2 | ||
中 | ||
参与人1 | 上 | 1,2 |
【例3】考虑下面的博弈(重复剔除严格劣策略)
Player1, Player2 | a | b |
---|---|---|
A | 3,4 | 4,3 |
B | 5,3 | 3,5 |
C | 5,3 | 4,3 |
本例中不存在严格劣策略,则考虑重复剔除弱劣策略。对于Player1, 策略A、B弱劣于C,所以去掉收益矩阵的第一、二行,得
Player1, Player2 | a | b |
---|---|---|
C | 5,3 | 4,3 |
最后均衡的选择取决于Player2的策略选择。
二、纳什均衡
博弈中当对手策略选定的时候,我会调整自己的策略,使得自己收益在几种策略选择中是最大的,这时的策略称为“最优反应”。这个时候如果对手不改变策略的话,我是没有动机去改变自己的策略的。如果每个参与人的策略都是“最优反应”,那么就会形成一种稳定的局面,这时的博弈结果就是纳什均衡
一个策略组合被称为纳什均衡,当每个博弈者的均衡策略都是为了达到自己期望收益的最大值,与此同时,其他所有博弈者也遵循这样的策略。纳什均衡用一句话来概括就是——博弈的所有参与人都为了满足自己的个人利益而选择牺牲集体利益而导致的全体参与人都吃亏的均衡状态。也可以粗略的理解为:要死大家一起死。所谓纳什均衡,指的是参与人的这样一种策略组合,任何参与人单独改变策略都不会得到好处。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。
纳什均衡:在博弈\(G=\{N;S_1,…,S_n;u_1,…,u_n\}\)中,如果由所有博弈方的各个策略组成的某个策略组合\((s_1^*,…,s_n^*)\)中,任一博弈方\(i\)的策略\(s_i^*\),都是对其余博弈方策略的组合\(s_{-i}^*\)的最佳对策,亦即
对任意\(s_{ij}∈S_i\)都成立,则称\((s_1^*,…,s_n^*)\)为\(G\)的一个纳什均衡。
注意:纳什均衡从字面上还是相对比较好理解的,这里稍微解释一下数学定义,任何一方采取的策略都是对其余所有方采取策略组合下的最佳对策;当所有其他人都不改变策略时,为了让自己的收益最大,任何一方都不会(或者无法)改变自己的策略,这时的策略组合就是一个纳什均衡,也叫纯策略纳什均衡。
2.1 最优反应(Best Response)
局中人\(i\)关于对手策略\(s_{-i}\)的最优反应:
同时满足所有局中人的最优反应的博弈结果,就是纳什均衡。也就是对于 \(\forall {i}\) ,满足\(s_i^*\in B_{i}(s_{-i}^{*})\)的博弈结果。
【例4】依旧是囚徒困境
最优反应
\begin{array}{ll} B_{1}(c)=\{c\} & B_{1}(d)=\{c\} \\ B_{2}(c)=\{c\} & B_{2}(d)=\{c\} \end{array} 在收益矩阵上标出这些最优反应:
\(B_1(c)=\{c\}\)表示在囚徒2选择c的时候,囚徒1的最优策略是c,因为囚徒1的收益(-6 > -12),对应矩阵中左边红色的”√“。详细分析如下:
\(B_1(d)=\{c\}\)表示在囚徒2选择d的时候,囚徒1的最优策略是c,因为囚徒1的收益(0 > -1),对应矩阵中右边红色的”√“。
\(B_2(c)=\{c\}\)表示在囚徒1选择c的时候,囚徒2的最优策略是c,因为囚徒2的收益(-6 > -12),对应矩阵中上边绿色的”√“。
\(B_2(d)=\{c\}\)表示在囚徒1选择d的时候,囚徒2的最优策略是c,因为囚徒2的收益(0 > -1)。对应矩阵中下边绿色的”√“。
因此,最终得到满足参与人的最优反应的结果:(c,c),也就是两人都坦白,就是该博弈的纳什均衡。
【例5】古诺竞争
这个例子收益是连续的,不能用矩阵来表示。问题如下:两个厂商\(\{1,2\}\)生产和销售同一种商品,厂商\(i\)生产的数量记为\(q_i\)。 每件商品生产成本都是\(c\),售价是:\(max(0,a-b(q_1+q_2))\),求纳什均衡。
1) 策略式
其中,收益\(u_i(q_1,q_2) = (max(0,a-b(q_1+q_2))-c)q_iu_i(q_1,q_2) = (max(0,a-b(q_1+q_2))-c)q_i\)。(售价-成本)x生产数量
2) 求最优反应函数
对于厂商1:
如果\(q_{2} \geq(a-c) / b\),那么对于任意的\(q_1 \ge 0\),都有$$u_{1}\left(q_{1}, q_{2}\right) \leq 0$$,即没有正收益
如果$$q_{2} < (a-c) / b$$,那么$$u_1(q_1,q_2) = (a-b(q_1+q_2))-c)q_1$$。
固定\(q_2,q_1\)何时取最大呢?求解:$$\frac{\partial u_{1}\left(q_{1}, q_{2}\right)}{\partial q_{1}}=a-c-b q_{2}-2 b q_{1}=0 $$
,求得
,这就是厂商1的最优反应函数
同理,对于厂商2,最优反应函数是:$$q_{2}=\left(a-c-b q_{1}\right) / 2b$$
3) 纳什均衡
对于满足纳什均衡的博弈结果\((q_{1}^{*}, q_{2}^{*})\),有:
联立方程,解得
2.2 纳什均衡的求法——划线法
对于一个简单的“二人同时博弈”,可以用一个以二元数组为元素的支付矩阵来表示,并用“划线法”来确定它的纳什均衡。划线法是最优反应函数的实践应用,具体步骤如下:
- 把整个博弈的支付矩阵分解为两个参与人的支付矩阵。
- 在第一个(即位于整个博弈矩阵左方的)参与人(甲)的支付矩阵中,找出每一列的最大者,并在其下画线。
- 在第二个(即位于整个博弈矩阵上方的)参与人(乙)的支付矩阵中,找出每一行的最大者,并在其下画线。
- 将已经画好线的两个参与人的支付矩阵再合并起来,得到带有下划线的整个博弈的支付矩阵。
- 在带有下划线的整个的支付矩阵中,找到两个数字之下均画有线的支付组合。由该支付组合代表的策略组合就是博弈的纳什均衡。
划线法图 | 例6图 |
---|---|
【例6】并非所有的博弈都存在纯策略纳什均衡。如下表所示的硬币正反博弈,此博弈就不存在纯策略纳什均衡。
这是一种常见的游戏,由两个人参与。规则是参与游戏的一方(玩家1)盖住硬币,由另一方(玩家2)来猜是正面朝上还是反面朝上。如果玩家1猜对,则获得1的收益,玩家2获得-1的收益;否则,如果玩家1猜错,他将获得-1的收益,玩家2获得1的收益。这显然是一个零和博弈,因为一个人的赢必然引起另一个人的输,并且两人总收益为零,我们用收益矩阵(Payoff Matrix)来表示这个博弈(见例6图)。上述矩阵中,参与方为玩家1和玩家2,每个玩家有两种策略,因此共有4种策略组合,矩阵每个元素代表在特定的策略下两方获得的收益(逗号前后分别代表玩家1和玩家2各自的收益)。由于玩家1和玩家2互相不知道对方的策略,可以看做两方同时做出决策。每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。
三 混合纳什均衡
以硬币正反博弈为例,无论双方采用哪种策略组合,输的一方总可以改变策略使自己反败为胜,因此没有纯策略的纳什均衡。这时需要引入“随机性”来解决这个问题。混合策略就是在纯策略上加上概率,在一次博弈中,参与者随机地选择一种纯策略。混合策略是在概率意义下的一种策略,追求的是期望意义下的收益。
3.1 混合策略博弈的模型
混合策略
混合策略是给每个纯策略分配一个概率,一个局中人的策略集就是一个“样本空间”。用\(\Delta(S_i)\)表示\(S_i\)上的概率分布,即:
那么,混合策略 \(p_i=\left(p_{i 1}, p_{i 2}, \ldots, p_{i n_i}\right) \in \boldsymbol{\Delta}\left(S_i\right)\)
混合策略博弈结果
引入 \(p_{-i}=\left(p_1, \ldots, p_{i-1}, p_{i+1}, \ldots, p_n\right)\) ,则 \(p=\left(p_i, p_{-i}\right)\)
期望收益
在这样一个“随机”的博弈中,收益如何计算呢?这就需要计算期望的收益了。期望的收益就是纯策略的博弈结果的收益乘上这个结果出现的概率,对每个博弈结果进行求和。
给定一个策略式博弈 \(G=\left\{N,\left\{S_i\right\},\left\{u_i\right\}\right\}\) 和一个混合策略博弈结果 \(p=\left(p_1, p_2, \ldots, p_n\right)\) , 局中人 \(i\) 的期望收益是
(假设每个局中人是独立决策的,因此是每个局中人的相应策略的概率乘积)
混合策略博弈模型的表示
【例7】称\(|N|=2\)的博弈为双人博弈。 设\(S_1=\{s_{11},s_{12},s_{13},\cdots,s_{1m}\}, S_2=\{s_{21},s_{22},s_{23},\cdots,s_{2n}\}, 则\)\(S=S_1×S_2\)\(共有mn\)种可能, 也就是说存在 \(mn\) 种策略组合。 一般来说, 双人博弈中我们可以将策略组合以矩阵的形式予以表述, 称作策略组合矩阵 \(\mathbf{S}\)。具体地,我们设 \(\mathbf{S}_{i j}=\left(s_{1 i}, s_{2 j}\right)\),而对于每个策略组合 \(\mathbf{S}_{i j}\), 我们可以 计算参与人 \(l\) 的效用 \(u_l\left(\mathbf{S}_{i j}\right) \equiv \mathbf{U}_{l i j}\) ,这样就得到了一个三阶张量,称作效用张量(显然这个叙述可 以推广到多人博弈上去)。双人博弈的效用张量可以通过一个表格 \(\mathbf{S}_{i j} \rightarrow\left(u_1\left(\mathbf{S}_{i j}\right), u_2\left(\mathbf{S}_{i j}\right)\right)\) 给出, 这个表格被叫做双人博弈的收益矩阵。 一个典型的收益矩阵如下所示:
显然, \(\sigma_1=(1 / 5,1 / 10,7 / 10)\) 是参与人 1 的一个混合策略, \(\sigma_2=(1 / 2,1 / 3,1 / 6)\) 是参与人 2 的 一个混合策略, 而 \(\boldsymbol{\sigma}=\left(\sigma_1, \sigma_2\right)\) 就是一个混合策略组合. 我们计算这个混合策略组合下 1 的效用 \(u_1(\boldsymbol{\sigma})\)。根据定义,我们就有
这里我特意让每个概率值都不同, 从而方便进行对应项比照。类似地可以计算\(u_2(\sigma)\), 这里略去。
【例8】在下面的博弈中,假设\(π_1=0.4,π_2=0.5\)是策略U和策略L的概率,那么:
3.2 混合策略的纳什均衡
一个混合策略博弈结果\(p=(p_{1}, p_{2}, \dots, p_{n})\)是一个混合策略纳什均衡(mixed strategy Nash equilibrium,简记为MNE),对于每个局中人\(i\),都有:
通俗地解释就是:每个局中人都选择在对手不改变的情况下的最好的分布
最优反应:局中人\(i\)的最优反应
显然,\(p=(p_1,p_2,…,p_n)\)是MNE当且仅当对于所有的局中人\(i\)$p_i∈B_i(p_{−i})$。
定理1:有限的策略式博弈一定存在混合策略纳什均衡。
定理2:\(p=(p_1,p_2,…,p_n)\)是MNE当且仅当对于所有的局中人\(i\)的每个具有正概率的纯策略都是\(p_{-i}\)的最优反应。也就是说,局中人\(i\)选任意一种纯策略的期望收益是相同的。
【例9】考虑以下鹰兔博弈,求所有纳什均衡。
纳什均衡的意义在于利益最大化,所以仅需将利益最大化时策略间的关系求出即可。
令\(x= σ_1(T),y=σ_2(T)\),则\(σ_1(W)=1-x,σ_2(W)=1-y\),则得到参与人1的最优反应函数为
对于 \(y<\frac{1}{2} , x=1\) ;对于 \(y>\frac{1}{2} , x=0\) ;对于 \(y=\frac{1}{2} , x \in[0,1]\)
同理得到参与人2的最优反应函数
将两个函数绘制在一个坐标系中
红色曲线为参与人一利益最大曲线,蓝色为参与人二利益最大曲线,不难看出有三个点两个参与人利益均最大,即(0,1),(1,0),(\(\frac12,\frac12\)),故此三个点对应的策略组合即为纳什均衡。
结合例题不难看出,纳什均衡的求解方法就是找出利益最大曲线,然后解出交点。所有参与人的混合策略的组合构成“混合策略组合”。混合策略组合与参与人的支付的乘积之和为参与人的期望支付。当其他参与人的混合策略确定之后,某个参与人选择的可以使自己的期望支付达到最大的混合策略是该参与人的混合策略,不同参与人的混合策略曲线的“交点”就是混合策略条件下的纳什均衡。
【例10】求解下面博弈的混合纳什均衡
设局中人1选择U的概率是\(π_1\),局中人2选择L的概率是\(π_2\),由局中人2选L的期望收益等于局中人2选R的期望收益,得公式: $$2π_1+5(1−π_1)=4π_1+2(1−π_1) $$
由局中人1选U的期望收益等于局中人1选D的期望收益,得公式:$$ π_2=3(1−π_2)$$
解得:$$π_1=0.6,π_2=0.75$$
因此求得纳什均衡$$p = \{\{0.6,0.4\},\{0.75,0.25\}\}$$
总结
完全信息静态博弈在市场竞争、定价策略、合作与竞争等经济决策中发挥重要作用。在企业在制定定价、推广、市场份额等策略时,需要考虑竞争对手的决策,这就涉及到博弈的思维;政治家和*在制定政策、谈判协议时,需要考虑其他国家或政治实体的反应,这也涉及到博弈理论;国际间的环境协议,如气候变化协定,涉及到各国在资源分配上的博弈。
完全信息静态博弈提供了对决策情境的深入理解,帮助人们预测他人可能的行为,并做出更明智的选择。它强调了理性决策者如何在已知信息的基础上优化自己的利益。然而,博弈理论在现实中可能会受到信息不对称、非理性行为和多方利益等因素的影响,因此在实际应用中需要综合考虑更多的因素。尽管如此,完全信息静态博弈仍然为许多领域的决策提供了有益的分析框架。
参考文献
- 博弈论笔记(一):策略式博弈及其纳什均衡
- 博弈论基础 Ⅰ:完全信息静态博弈