资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,混合策略纳什均衡,Mixed Strategy,Nash Equilibrium,理学院 顾聪,11/17/2024,1,混合策略纳什均衡 Mixed Strategy Nash,两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚硬币是一致的(即全部正面或全部反面),则参与人2赢走参与人1的硬币;若两枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付矩阵如下:,参与人1,参与人2,-1,,1,1,,-1,1,,-1,-1,,1,正面,反面,正面,反面,由划线法可知,该博弈不存在纳什均衡。,所以采取纯策略不存在稳定的纳什均衡解。,4.1 严格竞争博弈和混合策略,1.混合策略的提出猜硬币博弈,11/17/2024,2,两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚,在这类博弈中,不存在纯策略纳什均衡。,参与人的支付取决于其他参与人的策略;以某种概率分布随机地选择不同的行动。,每个参与人都想猜透对方的策略,而每个参与人又不愿意让对方猜透自己的策略。,这种博弈的类型是什么?如何找到均衡?,上述博弈的特征是:,11/17/2024,3,在这类博弈中,不存在纯策略纳什均衡。上述博弈的特征是:10/,策略:,参与人在给定信息集的情况下选择行动的规则,它规定参与人在什么情况下选择什么行动,是参与人的“相机行动方案”。,纯策略:,如果一个策略规定参与人在每一个给定的信息情况下只选择一种特定的行动,称为纯策略,简称“策略”,即参与人在其策略空间中选取唯一确定的策略。,混合策略:,如果一个策略规定参与人在给定的信息情况下以某种概率分布随机地选择不同的行动,称为混合策略。参与人采取的不是明确唯一的策略,而是其策略空间上的一种概率分布。,2.混合策略、混合策略博弈和混合策略纳什均衡,11/17/2024,4,策略:2.混合策略、混合策略博弈和混合策略纳什均衡10/6,混合策略 vs.纯策略(不确定性 vs.确定性),在博弈 中,博弈方 的策略空间 ,则博弈方 以概率分布 随机在其 个可选策略中选择的“策略”,称为一个“混合策略”,其中 对 都成立,且,纯策略可以理解为混合策略的特例,即在诸多策略中,选择该纯策略的概率为1,选其他纯策略的概率为0.,为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯策略?,参与人主观因素造成的犹豫不决,外在客观因素的不确定性带来应对策略的不确定性,迷惑对手:为了让其它参与人不能清楚了解自己的选择,11/17/2024,5,混合策略 vs.纯策略(不确定性 vs.确定性)10,混合策略扩展博弈:,博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈,就是原博弈的“混合策略扩展博弈”。,混合策略纳什均衡(MNE):,由最优的混合策略构成的混合策略组合:,11/17/2024,6,混合策略扩展博弈:10/6/20236,对于任意混合策略组合:,若各参与人最终确定的组合(纯策略组合)为,参与人的支付为,发生此情况的概率为,参与人的期望效用:,3.期望效用(Expected Payoff),11/17/2024,7,对于任意混合策略组合:3.期望效用(Expected,由于混合策略伴随的是支付的不确定性,因此参与人关心的是其期望效用(平均效用)。,最优混合策略:是指在给定对方的混合策略的情况下,使期望效用函数最大的混合策略。,在两人博弈里,混合策略纳什均衡是两个参与人的最优混合策略的组合。,11/17/2024,8,由于混合策略伴随的是支付的不确定性,因此参与人关心的是其期望,2,3,,3,-1,,1,-1,,0,0,,流浪,流浪汉,政府,救济,不救济,寻找工作,虽这模型没有PNE,却有下述的MNE:参与人以一定的概率选择某种策略,然后计算相应于不同概率的期望效用。,4.一个例子社会福利博弈,11/17/2024,9,2 3 1,设:,政府,救济的概率,=,1/2;不救济的概率,1-,=1/2。,流浪汉,寻找工作的期望效用:1/22+1/2 1=1.5,流浪的期望效用:,1/23+1/2 0=1.5,3,2,-,1 ,3,-,1 ,1,0,0,救济,不救济,1-,寻找工作,游荡,1-,此时,流浪汉选择任何混合策略的期望效用都是1.5,则流浪汉的任何一种策略(纯的,=1或,=0或混合的0,1)都是政府所选择的混合策略的最优反应。,11/17/2024,10,设:政府救济的概率=1/2;不救济的概率1-,3,2,-,1 ,3,-,1 ,1,0,0,救济,不救济,1-,寻找工作,游荡1-,而当,=0.2 1-,=0.8,游荡 寻找工作,如果流浪汉选择这个混合策略,政府的任何策略(混合的或纯的)带给政府的期望效用为-0.2。特别的,以1/2的概率分别选择救济和不救济当然也是政府对于流浪汉所选择的混合策略的最有反应。,这样,我们得到一个混合策略组合,每一个参与人的混合策略都是给定对方混合策略是的最优选择,从而构成混合策略纳什均衡。,策略 期望收益,政府 (0.5,0.5)-0.2,流浪汉 (0.2,0.8)1.5,11/17/2024,11,3 ,2-1 ,3-1 ,既然参与人在构成混合策略时选择不同纯策略之间是无差异的,他为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯策略呢?一个参与人,选择混合策略目的是给其他参与人造成不确定性,。,海萨尼(Harsanyi,1973)对混合战略的解释是,,混合策略均衡等价于不完全信息下的纯策略均衡,:如社会福利博弈中,假定有两类特征的流浪汉,一类选择寻找工作,另一类选择游荡;每个流浪汉都知道自己的特征,但政府并不知道流浪汉的准确特征,只知道流浪汉20%概率属第一类,80%概率属第二类。在这种情况下,政府在选择自己的策略时似乎面临的是一位选择混合策略的流浪汉。,既然参与人在构成混合策略时选择不同纯策略之间是,支付最大化法,支付等值法,最优反应函数法,4.2 混合策略纳什均衡的求解,11/17/2024,13,支付最大化法4.2 混合策略纳什均衡的求解10/6/2023,参与人1的混合策略为,1,=(,q,1-,q,)(分别以概率,q,和1-,q,选择正面和反面),,参与人2的混合策略为,2,=(,r,1-,r,)(分别以概率,r,和1-,r,选择正面和反面)。,参与人1,参与人2,-1,,1,1,,-1,1,,-1,-1,,1,r,正面,1-,r,反面,q,正面,1-,q,反面,1.支付最大化法求纳什均衡猜硬币博弈,11/17/2024,14,参与人1的混合策略为1=(q,1-q)(分别以概率q和1,参与人1,参与人2,-1,,1,1,,-1,1,,-1,-1,,1,r,正面,1-,r,反面,q,正面,1-,q,反面,E,1,(正面)=(-1),r,+1(1-,r,)=1-2,r,参与人1选取反面的期望效用为,E,1,(反面)=1,r,+(-1)(1-,r,)=2,r-,1,当给定参与人,2选择,混合策略,1,=(,r,1-,r,),时,,参与人1的选取正面的期望效用为,11/17/2024,15,参与人1参与人2 -1,1 1,-1 1,-,类似地,得到参与人2的期望效用为,E,2,=,E,2,(正面),r,+,E,2,(反面)(1-,r,),=,(1-2,q,)(2,r,-1),由一阶条件:,参与人1的期望效用为,E,1,=,E,1,(正面),q,+,E,1,(反面)(1-,q,)=(1-2,r,)(2,q,-1),11/17/2024,16,类似地,得到参与人2的期望效用为E2=E2(正面)r+,2,3,,3,-1,,1,-1,,0,0,,流浪,1-,流浪汉,政府,救济,不救济,1-,工作,即:流浪汉以0.2的概率选择寻找工作,0.8的概率选择流浪。,社会福利博弈,11/17/2024,17,2 3 1,2,3,,3,-1,,1,-1,,0,0,,流浪,1-,流浪汉,政府,救济,不救济,1-,工作,即:政府以0.5的概率选择救济,0.5的概率选择不救济。,社会福利博弈,11/17/2024,18,2 3 1,对,*,=0.2,的解释:,如果流浪汉寻找工作的概率小于0.2,政府的最优选择是不救济;如果流浪汉寻找工作的概率大于0.2,政府的最优选择是救济。,对,*,=0.5,的解释:,如果政府救济的概率大于0.5,流浪汉的最优选择是流浪;如果政府救济的概率小于0.5,流浪汉的最优选择是寻找工作。,混合策略纳什均衡的含义:,纳什均衡要求每个参与人的混合战略是给定对方的混合策略下的最优选择。因此在社会福利博弈中,,*,=0.2,,*,=0.5 是唯一的混合策略纳什均衡。,11/17/2024,19,对*=0.2 的解释:10/6/202319,由上面的例子可以看出,参与人选择的混合策略均使对方选择纯策略的期望效用相等,促使各方均采取严格策合策略。,所以求解混合策略纳什均衡也可以采取如下方法:,求出参与人的每个纯策略的期望效用,令其相等即可得到混合策略纳什均衡。,2.支付等值法求纳什均衡,11/17/2024,20,由上面的例子可以看出,参与人选择的混合策略均使对方选择纯策,参与人1的选取正面的期望效用为,参与人1的选取反面的期望效用为,E,1,(正面)=(-1),r,+1(1-,r,)=1-2,r,E,1,(反面)=1,r,+(-1)(1-,r,)=2,r-,1,令纯策略期望效用相等:,得,类似地,令参与人2的纯战略期望效用相等得:,猜硬币博弈,11/17/2024,21,参与人1的选取正面的期望效用为 参与人1的选取反面的期望效用,假定最优混合策略存在,给定流浪汉选择混合策略,3,,2,-1,,3,-1,,1,0,,0,流浪,流浪汉,政府,救济,不救济,寻找工作,政府选择纯策略救济的期望效用为:,选择纯策略不救济的效用为:,如果一个混合策略(而不是纯策略)是政府的最优选择,一定意味着政府在救济与不救济之间是无差异的,社会福利博弈,11/17/2024,22,假定最优混合策略存在,给定流浪汉选择混合策略3,2-1,,在讨论连续纯策略均衡时(如古诺模型),我们使用了反应函数的概念。,现在我们可以使用反应对应的概念来描述一个参与人对应于其他参与人混合策略的最优选择。,两个概念的区别仅仅在于:,反应函数表示的是一个参与人只有一个特定的策略是其他人给定策略的最优选择;,反应对应允许一个参与人有多个(甚至无穷多个)策略是其他人给定策略的最优选择。,3.最优反应函数法求纳什均衡,11/17/2024,23,在讨论连续纯策略均衡时(如古诺模型),我们使用了反应函数的概,纯策略均衡:反应函数(reaction function),在纯策略的范畴内,最优反应函数是各博弈方选择的纯策略对其他博弈方纯策略的反应。纯策略纳什均衡是博弈方反应函数的交叉点。,混合策略均衡:反应对应(reaction correspondence),在混合策略的范围内,博弈方的决策内容为选择概率分布,最优反应函数就是一方对另一方的概率分布的反应。由于纯策略可以理解为混合策略,因此实际上最优反应函数的概念,也可以在混合策略概率分布之间反应的意义上统一起来。混合战略纳什均衡也是反应函数的交叉点。,11/17/2024,24,纯策略均衡:反应函数(reaction function),混合策略反应函数,猜硬币博弈,r,q,1,1,1/2,1/2,参与人1,参与人2,-1,,1,1,,-1,1,,-1,-1,,1,r,正面,1-,r,反面,q,正面,1-,q,反面,11/17/2024,25,混合策略反应函数猜硬币博弈rq111/21/2参与人1参与人,夫妻之争博弈,2,1,0,0,0,0,1,3,电影,足球,丈夫,电影,足球,妻,子,r,q,1,1,1/3,2/3,混合策略反应函数,(r,
展开阅读全文