第五章不完美信息动态博弈

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,重庆大学刘辛,*,第五章不完全信息动态博弈,贝叶斯精炼均衡,2024/9/13,1,重庆大学刘辛,不完全信息动态博弈,类型：,自然首先选择玩家的类型，玩家自己知道，其他玩家不知道,不完全信息,行动：,行动有先有后，后行动者能观测到先行动者的行动，但不能观测到其类型。,-动态博弈,但是，玩家是类型依存型的，每个玩家的行动都传递有关自己类型的信息，,后行动者可以通过观察先行动者的行动来推断自己的最优行动。,2024/9/13,2,重庆大学刘辛,不完全信息动态博弈,先行动者预测到自己的行动被后行动者利用，就会设法传递对自己最有利的信息,。,不完全信息动态博弈过程不仅是玩家选择行动的过程，而且是玩家不断修正信念的过程。,精练贝叶斯均衡,是泽尔腾不完全信息动态博弈子博弈精练纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡的结合。,2024/9/13,3,重庆大学刘辛,黔之驴-驴虎博弈,黔无驴，有好事者船载以入。至则无可用，放之山下。虎见之，庞然大物也，以为神，蔽林间窥之。稍出近之，慭慭然，莫相知。,他日，驴一鸣，虎大骇，远遁；以为且噬己也，甚恐。然往来视之，觉无异能者；益习其声，又近出前后，终不敢搏。稍近益狎，荡倚冲冒。,驴不胜怒，蹄之。虎因喜，计之曰，“技止此耳！”因跳踉大，断其喉，尽其肉，乃去。,2024/9/13,4,重庆大学刘辛,黔之驴-驴虎博弈,老虎通过不断试探来修正对毛驴的看法，每一步行动都是给定它的信念下最优的,毛驴也是如此,最终老虎将毛驴吃掉。,2024/9/13,5,重庆大学刘辛,基本思路-不完全信息动态博弈,市场进入博弈：,玩家,：在位者，进入者；,T=1，,市场上只有一个垄断企业，在位者，一个潜在进入者考虑是否进入；如果进入者进入，两个企业进行库挪特博弈，在位者获得垄断利润。,类型：在位,者,有两种类型，高成本或低成本，进入者在博弈开始时只知道在位者高成本的概率是,x，,低成本概率是1-,x。,称为先验概率。,2024/9/13,6,重庆大学刘辛,收益,价格,P=4,P=5,P=6,在位者高成本时的利润,2,6,7,在位者低成本时的利润,6,9,8,2024/9/13,7,重庆大学刘辛,基本思路-不完全信息动态博弈,进入者只有一种类型：进入成本为2，如果进入，生产成本函数与在位者高成本函数相同。,T=2，,如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，企业企业成本函数相同，对称库诺特均衡产量下的价格,p=5,时，每个企业利润为3，扣除进入成本2，进入者利润为1。,若在位者为低成本，两个企业成本函数不同，非对称库诺特均衡产量下的价格,p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。,2024/9/13,8,重庆大学刘辛,进入者收益,价格,P=4,P=5,P=6,在位者高成本时的利润,2,6,7,在位者低成本时的利润,6,9,8,进入者进入,在位者,进入者,在位者高成本,p=5,3,1,在位者低成本,p=4,5,-1,2024/9/13,9,重庆大学刘辛,动态博弈,进入者只有一种类型：进入成本为2，如果进入，生产成本函数与在位者高成本函数相同。,T=2，,如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，,p=5,时，每个企业利润为3，扣除进入成本2，进入者利润为1。若在位者为低成本，,p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。,2024/9/13,10,重庆大学刘辛,N,高,低,在位者,P=5,P=6,进入,不进入,进入,不进入,进入,不进入,进入,不进入,(6,0),(6,0),(,7,0),(,7,0),(,6,0),(6,0),(9,0),(9,0),P=4,进入者,进入,不进入,(,2,0),(,2,0),进入,不进入,(8,0),(8,0),x,1-,x,在位者,P=5,P=6,P=4,第一阶段,第二阶段,(3,1),(7,0),(,3,1),(,7,0),(,5,-1),(9,0),(5,-1),(9,0),(,3,1),(,7,0),(5,-1),(9,0),市场进入博弈-2阶段不完全信息动态博弈,进入者只有一种类型：进入成本为2，如果进入，生产成本函数与在位者高成本函数相同。,T=2，,如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，,p=5,时，每个企业利润为3，扣除进入成本2，进入者利润为1。若在位者为低成本，,p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。,2024/9/13,11,重庆大学刘辛,基本思路-不完全信息动态博弈,T=2,企业的行动选择是一个简单的静态博弈决策,问题，但在第一阶段，情况要复杂得多：,进入者是否进入依赖于它对在位者成本函数的判断：给定在位者是高成本时，进入者进入的净利润是1，低成本时进入者的利润是-1，当只当进入者认为在位者是高成本的概率大于1/2时，进入者才选择进入。,但与静态博弈不同的是，在观测到在位者第一阶段的价格选择后，进入者可以修正对在位者成本函数的先验概率,x，,因为在位者的价格可能包含其成本函数的信息。,价格,P=4,P=5,P=6,在位者高成本时的利润,2,6,7,在位者低成本时的利润,6,9,8,2024/9/13,12,重庆大学刘辛,N,高,低,在位者,P=5,P=6,进入,不进入,进入,不进入,进入,不进入,进入,不进入,(6,0),(6,0),(,7,0),(,6,0),(6,0),(9,0),(9,0),P=4,进入者,进入,不进入,(,2,0),(,2,0),进入,不进入,(8,0),(8,0),x,1-,x,在位者,P=5,P=6,P=4,第一阶段,第二阶段,(3,1),(7,0),(,3,1),(,7,0),(,5,-1),(9,0),(5,-1),(9,0),(,3,1),(,7,0),(5,-1),(9,0),市场进入博弈,二,阶段不完全信息动态博弈,(,7,0),高成本在位者不会选择,p=6,低成本在位者不会选择,p=5,2024/9/13,13,重庆大学刘辛,基本思路-不完全信息动态博弈,低成本的在位者不会选择,p=6，,因此，如果进入者观察到在位者选择了,p=6,就可以推断在位者一定是高成本，选择进入是有利可图的。,预测到,p=6,会招致进入者进入，即使高成本的在位者也可能不会选择,p=6,而招致进入者的进入。,相反，低成本在位者,也不会选择,p=5，,如果,p=5,会招致进入者进入的话。,问题的核心是：,不同的价格如何影响进入者的后验概率从而影响进入者的进入决策,。,价格,P=4,P=5,P=6,在位者高成本时的利润,2,6,7,在位者低成本时的利润,6,9,8,2024/9/13,14,重庆大学刘辛,基本思路-不完全信息动态博弈,一个非单阶段最优价格会减少现期利润，但如果它能阻止进入者进入，从而使在位者在第二阶段得到的是垄断利润而不是库诺特均衡利润,如果垄断利润与库诺特均衡利润的差距足够大，如果在位者有足够的信心选择一个非单阶段最优价格可能是最优的。,在均衡情况下，在位者究竟选择什么价格，不仅与成本函数有关，而且与进入者的先验概率,x,有关。而不关,x,为多少，单阶段最优垄断价格不构成均衡。,2024/9/13,15,重庆大学刘辛,基本思路-不完全信息动态博弈,在,静态贝叶斯均衡中，玩家的信念是事前给定的，均衡该概念没有规定玩家如何修正自己的信念。,如果进入者可以任意修订自己有关在位者成本函数的信念，上述不完全信息动态博弈可以有任意均衡。,如假定,x1/2，,下列战略组合是一个贝叶斯均衡：不论在位者选择什么价格，进入者总认为在位者是低成本的概率为,x,*,1/2，,总是选择不进入；搞成本在位者选择,p=6,低成本在位者选择,p=5。,2024/9/13,16,重庆大学刘辛,不完全信息动态博弈,但显然这个均衡是不合理的，因为它包含了一个不可置信威胁：进入者不会修正对在位者成本函数的信念。,给定,p=6,不可能是低成本在位者的最优选择，如果在位者选择了,p=6,进入者为什么仍然认为在位者是高成本的概率小于1/2呢？,2024/9/13,17,重庆大学刘辛,基本思路-不完全信息动态博弈,完全信息动态博弈中引入了子博弈精练纳什均衡的概念概念剔除那些不可置信的威胁,不完全信息动态博弈中，只有一个子博弈，不能将上述方法直接用于求不完全信息动态博弈的均衡解，但可以借用这一方法逻辑。,将每个信息集开始的博弈的剩余部分称为一个,“,后续博弈,”,2024/9/13,18,重庆大学刘辛,基本思路-不完全信息动态博弈,一个,“,合理,”,的均衡应该满足如下要求：给定每一个玩家有关其他玩家类型的后验信念，玩家的战略组合在每一个后续博弈上构成贝叶斯均衡,剔除这种不可信行为的方式是：,假定玩家（在所有可能情况下）根据贝叶斯规则修正先验概念，并且，每个玩家都假定其他玩家选择的是均衡战略。,2024/9/13,19,重庆大学刘辛,基本思路-不完全信息动态博弈,精练贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求：,1、在每个信息集上，决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布（信念）；,2、给定该信息集上的概率分布和其他玩家的后续战略，玩家的行动必须是最优的；,3、每一个玩家根据贝叶斯法则和均衡战略修正后验概率。,2024/9/13,20,重庆大学刘辛,贝叶斯法则,在,日常生活中，当面临不确定时，我们对某事件发生的可能性有一个判断，然后，会根据新的信息来修正这个判断。,统计学上，修正之前的判断称为“先验概率”,修正后的判断称为“后验概率”,贝叶斯法则,就是人们根据新的信息从先验概率得到后验概率的基本方法。,2024/9/13,21,重庆大学刘辛,贝叶斯法则,假定玩家的类型是独立分布的，玩家i,有,K,个类型，有,H,个可能的行动，,k,和,a,h,分别代表一个特定的类型和一个特定的行动。,如果我们观察到,i,选择了,a,h,，i,属于,k,的,后验概率是多少？,2024/9/13,22,重庆大学刘辛,贝叶斯法则,人：好人（,GP），,坏人（,BP）,事：好事（,GT），,坏事（,BP）,一个好人干好事的概率,等于他是好人的概率,p（GP）,乘以好人干好事的概率,p（GT|GP），,加上他是坏人的概率,p（BP）,乘以坏人干好事的概率,p（GT|BP）：,Prob,GT= p（GT|GP）* p（GP）+ p（GT|BP）* p（GT|BP）,假定观测到一个人干了一件好事，那么这个人的是好人的后验概率是：,2024/9/13,23,重庆大学刘辛,贝叶斯法则,假定我们认为这个人是好人的先验概率是1/2，观测到他干了好事之后如何修正他的先验概率依赖于他干的好事好到什么程度：,1、是一件非常好的好事，坏人绝对不可能干，则,p（GT|GP）=1 p（GT|BP）=0,2024/9/13,24,重庆大学刘辛,贝叶斯法则,2、,这是一个非常一般的好事，好人会干，坏人也会干：,p（GT|GP）=1 p（GT|BP）=1,3、,介于上述两种情况之间：好人肯定会干，但坏人可能会干也可能不会干：,p（GT|GP）=1/2 p（GT|BP）=1/2,2024/9/13,25,重庆大学刘辛,贝叶斯法则,假定我们观测到他干了一件坏事，我们相信，好人绝对不会干坏事，那么可以肯定他绝对不是一个好人。,假定我们原来认为他是个好人，大突然发现他干了一件好事，我们如何看待呢？,2024/9/13,26,重庆大学刘辛,精练贝叶斯纳什均衡,精练贝叶斯均衡是均衡战略和均衡信念的结合，给定信念：,是使用贝叶斯法则从均衡战略和所观测到的行动得到的。因此，精练贝叶斯均衡是一个对应的不动点：,2024/9/13,27,重庆大学刘辛,啤酒-蛋糕博弈,玩家,1是一个善于打架的强者的概率是0.9，是一个不善于打架的弱者的概率是0.1,即使,玩家,1知道自己能打赢，也不想和别人打架。,如果,玩家,1是弱者，玩家2就想和他打架。,玩家2不知道玩家1的类型，但他能够观察玩家1早餐吃什么,。,2024/9/13,28,重庆大学刘辛,啤酒-蛋糕博弈,玩家2知道若者喜欢以蛋糕为早餐，而强者喜欢以啤酒为早餐。,两个均衡：无论玩家1是什么类型，都选择啤酒做早餐，玩家2选择不打架；,无论玩家是什么类型，都选择蛋糕作为早餐，玩家2选择不打架。,被排除,2024/9/13,29,重庆大学刘辛,信号传递博弈及其应用举例,信号传递博弈是一种比较简单的但有广泛应用意义的不完全信息动态博弈。,玩家：两个，信号发送者1和信号接收者2；1的类型是私人信息，2 的类型是公共信息（即只有一个类型）。,2024/9/13,30,重庆大学刘辛,博弈顺序,1、“自然”首先选择玩家1的类型，玩家1知道，但玩家2不知道。只知道1属于该类型,x,的先验概率。,2、玩家1观测到类型,x,后发出信号,3、玩家2观测到玩家1发出的信号，使用贝叶斯法则从先验概率得到后验概率，然后选择行动。,2024/9/13,31,重庆大学刘辛,N,高,低,在位者,P=5,P=6,进入,不进入,进入,不进入,进入,不进入,进入,不进入,(6,0),(6,0),(,7,0),(,7,0),(,6,0),(6,0),(9,0),(9,0),P=4,进入者,进入,不进入,(,2,0),(,2,0),进入,不进入,(8,0),(8,0),x,1-,x,在位者,P=5,P=6,P=4,第一阶段,第二阶段,(3,1),(7,0),(,3,1),(,7,0),(,5,-1),(9,0),(5,-1),(9,0),(,3,1),(,7,0),(5,-1),(9,0),玩家？,博弈顺序？,博弈结果？,市场进入博弈,2024/9/13,32,重庆大学刘辛,精练贝叶斯纳什均衡,信号传递博弈的所有可能的精练贝叶斯均衡可以划分为3类：,分离均衡：,不同类型的发送者（玩家1）以1的概率选择不同的信号，或者说，没有任何类型选择与其他类型相同的信号在分离均衡下，信号准确地揭示出类型。,混同均衡：,不同类型的发送者选择相同的信号，或者说，没有任何类型选择与其他类型不同的信号，因此，接收者不修正先验概率,。,准分离均衡：,一些类型的发送者随机地选择信号，另一些类型的发送者选择特定的信号。,2024/9/13,33,重庆大学刘辛,下图是一个信号传递博弈：自然首先选择玩家1的类型，玩家1知道自然的选择，玩家2 不知道，只知道玩家1属于类型,t,1,和,t,1,的可能性相等，玩家1然后选择信号,L,或,R，玩家,2选择行动,U,或,D，,博弈结束，支付向量如图所示，给出这个博弈所有纯战略分离均衡和混同均衡。,玩家？,博弈顺序？,博弈结果？,N,t,1,t,2,1,L,R,U,D,U,D,U,D,U,D,(1,1),(2,0),(2,2),(0,0),(0,0),(0,1),(1,0),(1,1),0.5,0.5,1,R,L,2,2,2024/9/13,34,重庆大学刘辛,重新回到市场进入模型,x=1/2,时，精练贝叶斯均衡为：,低成本在位者选择,p=4,高,成本在位者选择,p=6;,进入者选择不进入，如果观测到,p=4;,进入者选择进入，如果观测到,p=6.,2024/9/13,35,重庆大学刘辛,N,高,低,在位者,P=5,P=6,进入,不进入,进入,不进入,进入,不进入,进入,不进入,(6,0),(6,0),(,7,0),(,7,0),(,6,0),(6,0),(9,0),(9,0),P=4,进入者,进入,不进入,(,2,0),(,2,0),进入,不进入,(8,0),(8,0),x,1-,x,在位者,P=5,P=6,P=4,第一阶段,第二阶段,(3,1),(7,0),(,3,1),(,7,0),(,5,-1),(9,0),(5,-1),(9,0),(,3,1),(,7,0),(5,-1),(9,0),市场进入博弈-2阶段不完全信息动态博弈,x=1/2,时，精练贝叶斯均衡为：,低成本在位者选择,p=4,高,成本在位者选择,p=6;,进入者选择不进入，如果观测到,p=4;,进入者选择进入，如果观测到,p=6.,分离均衡,2024/9/13,36,重庆大学刘辛,精练贝叶斯纳什均衡,X1/2,给定在位者的后验概率和战略,高-在位者,P=6,进入者,进入,在位者,利润：7+3,在位者,P=5,进入者,不进入,在位者,利润：6+7,牺牲1单位换取4,单位利润是合算的,在位者,P=5,低-在位者,P=5,进入者,不进入,在位者,利润：9+9,最优选择,给定两类在位者都选,p=5，,进入者不能从观测到价格中得到任何信息，,x（5）=（1*x）/（1*x+1*（1-x）=x1/2,进入的期望利润,x（1）+（1-x）*（-1）=2x-10,不进入的期望利润为0，因此不进入是最优的。,混同均衡,价格,P=4,P=5,P=6,在位者高成本时的利润,2,6,7,在位者低成本时的利润,6,9,8,2024/9/13,37,重庆大学刘辛,给定两类在位者都选,p=5，,进入者不能从观测到价格中得到任何信息，,x（5）=（1*x）/（1*x+1*（1-x）=x1/2,进入的期望利润,x（1）+（1-x）*（-1）=2x-10,不进入的期望利润为0，因此不进入是最优的。,混同均衡,价格,P=4,P=5,P=6,在位者高成本时的利润,2,6,7,在位者低成本时的利润,6,9,8,2024/9/13,38,重庆大学刘辛,精练贝叶斯纳什均衡,因为两类在位者选择同样的价格，直观地讲，因为,x=1/2,低-在位者,P=5,进入者,进入,在位者,利润：9+5,最优选择,在位者,P=4,给定在位者的后验概率和战略,高-在位者,P=4,进入者,不进入,在位者,利润：2+7,分离均衡,高-在位者,P=6,进入者,进入,在位者,利润：7+3,最优选择,在位者,P=6,2024/9/13,40,重庆大学刘辛,精练贝叶斯纳什均衡,分离均衡,因为不同类型的在位者选择了不同的价格。低成本在位者选择了非单阶段最优价格,p=4;,高成本在位者选择了单阶段最优垄断价格,p=6,如果低成本在位者选择,p=5,无法将自己与高成本在位者分开，进入者将进入，但如果他选择,p=4,高成本在位者不会模仿，进入者不进入，因此低成本在位者宁愿放弃3单位的现期利润换取4单位的下期利润。,2024/9/13,41,重庆大学刘辛,精练贝叶斯纳什均衡,分离均衡,高成本在位者之所以不选择,p=4,是因为成本太高，下阶段的4单位例如不足以弥补现期5单位的损失。,不完全信息带来的唯一后果是，低成本在位者损失3单位的利润，这也可以说是他为了证明自己是低成本而支付的“认证”费用。,2024/9/13,42,重庆大学刘辛,占优均衡,DSE,重复剔除占优均衡,IEDE,纯战略纳什均衡,PNE,混合战略纳什均衡,MNE,请各对每种均衡举个例子,完全信息静态博弈-纳什均衡,2024/9/13,43,重庆大学刘辛,占优战略均衡,案例1-,囚徒困境,-,8，,-8,0，,-10,-,10，,0,-,1，,-1,囚徒,A,囚徒,B,坦白,抵赖,坦白,抵赖,抵赖是,A,的严格劣战略,抵赖是,B,的严格劣战略,2024/9/13,44,重庆大学刘辛,重复剔除的占优均衡,5，1,4，4,9，-1,0，0,等待,小猪,大猪,按,等待,按,案例2-智猪博弈,按是小猪的严格劣战略-剔除,4,大于1,0,大于-1,“按”是大猪的占优战略，纳什均衡：大猪按，小猪等待,2024/9/13,45,重庆大学刘辛,纳什均衡,寻找纳什均衡,0，,4,4,，0,5，3,4,，0,0，,4,5，3,3，5,3，5,6,，,6,C2,R1,R2,C1,C3,R3,玩家B,玩家A,（,R3，C3）,是纳什均衡,2024/9/13,46,重庆大学刘辛,混合战略纳什均衡,社会福利博弈,2,3，,3,-1，,1,-1，,0,0，,流浪,流浪汉,政府,救济,不,救济,寻找工作,设：政府救济的概率：1/2 ；不救济的概率：1/2。,流浪汉：寻找工作的概率：0. 2；流浪的概率：0.8,每个玩家的战略都是给定对方混合战略时的最优战略,2024/9/13,47,重庆大学刘辛,完全信息动态搏弈 -子博弈精炼纳什均衡,强盗分金,1,U,D,L,（1，1),2,2，0,R,U,（3，0),(0,2),2,D,子博弈精练纳什均衡（,（,U，U,），L）.,U,和,L,分别是玩家1,和玩家2,在非均衡路径上的选择。,逆向归纳法求解子博弈精练纳什均衡的过程，,实质上是重复剔除劣战略的过程,：,从最后一个决策结依次剔除每个子博弈的劣战略，最后生存下来的战略构成精练纳什均衡。,2024/9/13,48,重庆大学刘辛,不完全信息静态博弈 -,贝叶斯纳什均衡,贝叶斯纳什均衡,：,n,人不完全信息静态博弈的纯战略均衡是一个类型依存战略组合，其中每个玩家i,在给定自己的类型,i,和其他玩家类型依存战略的情况下，最大化自己的期望效用。,空城计,2024/9/13,49,重庆大学刘辛,不完全信息动态博弈 -精练贝叶斯纳什均衡,精练贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求：,1、在每个信息集上，决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布（信念）；,2、给定该信息集上的概率分布和其他玩家的后续战略，玩家的行动必须是最优的；,3、每一个玩家根据贝叶斯法则和均衡战略修正后验概率。,黔之驴,2024/9/13,50,重庆大学刘辛,

展开阅读全文

第五章 不完美信息动态博弈

最新文档

第五章不完美信息动态博弈