第五章-不完美信息动态博弈课件

资源描述

第五章不完全信息动态博弈贝叶斯精炼均衡2024/7/161不完全信息动态博弈l类型：自然首先选择玩家的类型，玩家自己知道，其他玩家不知道不完全信息l行动：行动有先有后，后行动者能观测到先行动者的行动，但不能观测到其类型。-动态博弈l但是，玩家是类型依存型的，每个玩家的行动都传递有关自己类型的信息，后行动者可以通过观察先行动者的行动来推断自己的最优行动。2024/7/162重庆大学刘辛不完全信息动态博弈l先行动者预测到自己的行动被后行动者利用，就会设法传递对自己最有利的信息。l不完全信息动态博弈过程不仅是玩家选择行动的过程，而且是玩家不断修正信念的过程。l精练贝叶斯均衡是泽尔腾不完全信息动态博弈子博弈精练纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡的结合。2024/7/163重庆大学刘辛黔之驴-驴虎博弈黔无驴，有好事者船载以入。至则无可用，放之山下。虎见之，庞然大物也，以为神，蔽林间窥之。稍出近之，慭慭然，莫相知。他日，驴一鸣，虎大骇，远遁；以为且噬己也，甚恐。然往来视之，觉无异能者；益习其声，又近出前后，终不敢搏。稍近益狎，荡倚冲冒。驴不胜怒，蹄之。虎因喜，计之曰，“技止此耳！”因跳踉大，断其喉，尽其肉，乃去。2024/7/164重庆大学刘辛黔之驴-驴虎博弈老虎通过不断试探来修正对毛驴的看法，每一步行动都是给定它的信念下最优的毛驴也是如此最终老虎将毛驴吃掉。2024/7/165重庆大学刘辛基本思路-不完全信息动态博弈市场进入博弈：玩家：在位者，进入者；T=1，市场上只有一个垄断企业，在位者，一个潜在进入者考虑是否进入；如果进入者进入，两个企业进行库挪特博弈，在位者获得垄断利润。类型：在位者有两种类型，高成本或低成本，进入者在博弈开始时只知道在位者高成本的概率是x，低成本概率是1-x。称为先验概率。2024/7/166重庆大学刘辛收益2024/7/167重庆大学刘辛基本思路-不完全信息动态博弈进入者只有一种类型：进入成本为2，如果进入，生产成本函数与在位者高成本函数相同。T=2，如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，企业企业成本函数相同，对称库诺特均衡产量下的价格p=5时，每个企业利润为3，扣除进入成本2，进入者利润为1。若在位者为低成本，两个企业成本函数不同，非对称库诺特均衡产量下的价格p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。2024/7/168重庆大学刘辛进入者收益2024/7/169重庆大学刘辛动态博弈进入者只有一种类型：进入成本为2，如果进入，生产成本函数与在位者高成本函数相同。T=2，如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，p=5时，每个企业利润为3，扣除进入成本2，进入者利润为1。若在位者为低成本，p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。2024/7/1610重庆大学刘辛N高低在位者P=5P=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)P=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)x1-x在位者P=5P=6P=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)市场进入博弈-2阶段不完全信息动态博弈进入者只有一种类型：进入成本为2，如果进入，生产成本函数与在位者高成本函数相同。T=2，如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，p=5时，每个企业利润为3，扣除进入成本2，进入者利润为1。若在位者为低成本，p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。2024/7/1611重庆大学刘辛基本思路-不完全信息动态博弈T=2,企业的行动选择是一个简单的静态博弈决策问题，但在第一阶段，情况要复杂得多：进入者是否进入依赖于它对在位者成本函数的判断：给定在位者是高成本时，进入者进入的净利润是1，低成本时进入者的利润是-1，当只当进入者认为在位者是高成本的概率大于1/2时，进入者才选择进入。但与静态博弈不同的是，在观测到在位者第一阶段的价格选择后，进入者可以修正对在位者成本函数的先验概率x，因为在位者的价格可能包含其成本函数的信息。2024/7/1612重庆大学刘辛N高低在位者P=5P=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(6,0)(6,0)(9,0)(9,0)P=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)x1-x在位者P=5P=6P=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)市场进入博弈二阶段不完全信息动态博弈(7,0)高成本在位者不会选择p=6低成本在位者不会选择p=52024/7/1613重庆大学刘辛基本思路-不完全信息动态博弈低成本的在位者不会选择p=6，因此，如果进入者观察到在位者选择了p=6,就可以推断在位者一定是高成本，选择进入是有利可图的。预测到p=6会招致进入者进入，即使高成本的在位者也可能不会选择p=6,而招致进入者的进入。相反，低成本在位者也不会选择p=5，如果p=5会招致进入者进入的话。问题的核心是：不同的价格如何影响进入者的后验概率从而影响进入者的进入决策。2024/7/1614重庆大学刘辛基本思路-不完全信息动态博弈一个非单阶段最优价格会减少现期利润，但如果它能阻止进入者进入，从而使在位者在第二阶段得到的是垄断利润而不是库诺特均衡利润如果垄断利润与库诺特均衡利润的差距足够大，如果在位者有足够的信心选择一个非单阶段最优价格可能是最优的。在均衡情况下，在位者究竟选择什么价格，不仅与成本函数有关，而且与进入者的先验概率x有关。而不关x为多少，单阶段最优垄断价格不构成均衡。2024/7/1615重庆大学刘辛基本思路-不完全信息动态博弈在静态贝叶斯均衡中，玩家的信念是事前给定的，均衡该概念没有规定玩家如何修正自己的信念。如果进入者可以任意修订自己有关在位者成本函数的信念，上述不完全信息动态博弈可以有任意均衡。如假定x1/2，下列战略组合是一个贝叶斯均衡：不论在位者选择什么价格，进入者总认为在位者是低成本的概率为x*1/2，总是选择不进入；搞成本在位者选择p=6,低成本在位者选择p=5。2024/7/1616重庆大学刘辛不完全信息动态博弈但显然这个均衡是不合理的，因为它包含了一个不可置信威胁：进入者不会修正对在位者成本函数的信念。给定p=6不可能是低成本在位者的最优选择，如果在位者选择了p=6,进入者为什么仍然认为在位者是高成本的概率小于1/2呢？2024/7/1617重庆大学刘辛基本思路-不完全信息动态博弈完全信息动态博弈中引入了子博弈精练纳什均衡的概念概念剔除那些不可置信的威胁不完全信息动态博弈中，只有一个子博弈，不能将上述方法直接用于求不完全信息动态博弈的均衡解，但可以借用这一方法逻辑。将每个信息集开始的博弈的剩余部分称为一个“后续博弈”2024/7/1618重庆大学刘辛基本思路-不完全信息动态博弈一个“合理”的均衡应该满足如下要求：给定每一个玩家有关其他玩家类型的后验信念，玩家的战略组合在每一个后续博弈上构成贝叶斯均衡剔除这种不可信行为的方式是：假定玩家（在所有可能情况下）根据贝叶斯规则修正先验概念，并且，每个玩家都假定其他玩家选择的是均衡战略。2024/7/1619重庆大学刘辛基本思路-不完全信息动态博弈精练贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求：1、在每个信息集上，决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布（信念）；2、给定该信息集上的概率分布和其他玩家的后续战略，玩家的行动必须是最优的；3、每一个玩家根据贝叶斯法则和均衡战略修正后验概率。2024/7/1620重庆大学刘辛贝叶斯法则在日常生活中，当面临不确定时，我们对某事件发生的可能性有一个判断，然后，会根据新的信息来修正这个判断。统计学上，修正之前的判断称为“先验概率”修正后的判断称为“后验概率”贝叶斯法则贝叶斯法则就是人们根据新的信息从先验概率得到后验概率的基本方法。2024/7/1621重庆大学刘辛贝叶斯法则假定玩家的类型是独立分布的，玩家i有K个类型，有H个可能的行动，k和ah分别代表一个特定的类型和一个特定的行动。如果我们观察到i选择了ah，i属于k的后验概率是多少？2024/7/1622重庆大学刘辛贝叶斯法则人：好人（GP），坏人（BP）事：好事（GT），坏事（BP）一个好人干好事的概率等于他是好人的概率p（GP）乘以好人干好事的概率p（GT|GP），加上他是坏人的概率p（BP）乘以坏人干好事的概率p（GT|BP）：ProbGT=p（GT|GP）*p（GP）+p（GT|BP）*p（GT|BP）假定观测到一个人干了一件好事，那么这个人的是好人的后验概率是：2024/7/1623重庆大学刘辛贝叶斯法则假定我们认为这个人是好人的先验概率是1/2，观测到他干了好事之后如何修正他的先验概率依赖于他干的好事好到什么程度：1、是一件非常好的好事，坏人绝对不可能干，则p（GT|GP）=1 p（GT|BP）=02024/7/1624重庆大学刘辛贝叶斯法则 2、这是一个非常一般的好事，好人会干，坏人也会干：p（GT|GP）=1 p（GT|BP）=13、介于上述两种情况之间：好人肯定会干，但坏人可能会干也可能不会干：p（GT|GP）=1/2 p（GT|BP）=1/22024/7/1625重庆大学刘辛贝叶斯法则假定我们观测到他干了一件坏事，我们相信，好人绝对不会干坏事，那么可以肯定他绝对不是一个好人。假定我们原来认为他是个好人，大突然发现他干了一件好事，我们如何看待呢？2024/7/1626重庆大学刘辛精练贝叶斯纳什均衡精练贝叶斯均衡是均衡战略和均衡信念的结合，给定信念：是使用贝叶斯法则从均衡战略和所观测到的行动得到的。因此，精练贝叶斯均衡是一个对应的不动点：2024/7/1627重庆大学刘辛啤酒-蛋糕博弈玩家1是一个善于打架的强者的概率是0.9，是一个不善于打架的弱者的概率是0.1即使玩家1知道自己能打赢，也不想和别人打架。如果玩家1是弱者，玩家2就想和他打架。玩家2不知道玩家1的类型，但他能够观察玩家1早餐吃什么。2024/7/1628重庆大学刘辛啤酒-蛋糕博弈n玩家2知道若者喜欢以蛋糕为早餐，而强者喜欢以啤酒为早餐。n两个均衡：无论玩家1是什么类型，都选择啤酒做早餐，玩家2选择不打架；n无论玩家是什么类型，都选择蛋糕作为早餐，玩家2选择不打架。被排除2024/7/1629重庆大学刘辛信号传递博弈及其应用举例信号传递博弈是一种比较简单的但有广泛应用意义的不完全信息动态博弈。玩家：两个，信号发送者1和信号接收者2；1的类型是私人信息，2 的类型是公共信息（即只有一个类型）。2024/7/1630重庆大学刘辛博弈顺序1、“自然”首先选择玩家1的类型，玩家1知道，但玩家2不知道。只知道1属于该类型x的先验概率。2、玩家1观测到类型x后发出信号3、玩家2观测到玩家1发出的信号，使用贝叶斯法则从先验概率得到后验概率，然后选择行动。2024/7/1631重庆大学刘辛N高低在位者P=5P=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)P=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)x1-x在位者P=5P=6P=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)玩家？玩家？博弈顺序博弈顺序？博弈结果博弈结果？市场进入博弈2024/7/1632重庆大学刘辛精练贝叶斯纳什均衡信号传递博弈的所有可能的精练贝叶斯均衡可以划分为3类：分离均衡：不同类型的发送者（玩家1）以1的概率选择不同的信号，或者说，没有任何类型选择与其他类型相同的信号在分离均衡下，信号准确地揭示出类型。混同均衡：不同类型的发送者选择相同的信号，或者说，没有任何类型选择与其他类型不同的信号，因此，接收者不修正先验概率。准分离均衡：一些类型的发送者随机地选择信号，另一些类型的发送者选择特定的信号。2024/7/1633重庆大学刘辛下图是一个信号传递博弈：自然首先选择玩家下图是一个信号传递博弈：自然首先选择玩家1 1的类型，玩家的类型，玩家1 1知知道自然的选择，玩家道自然的选择，玩家2 2 不知道，只知道玩家不知道，只知道玩家1 1属于类型属于类型t t1 1和和t t1 1的可的可能性相等，玩家能性相等，玩家1 1然后选择信号然后选择信号L L或或R R，玩家，玩家2 2选择行动选择行动U U或或D D，博弈，博弈结束，支付向量如图所示，给出这个博弈所有纯战略分离均衡和结束，支付向量如图所示，给出这个博弈所有纯战略分离均衡和混同均衡。混同均衡。玩家？玩家？博弈顺序？博弈顺序？博弈结果？博弈结果？Nt1 t21LRUDUDUDUD(1,1)(2,0)(2,2)(0,0)(0,0)(0,1)(1,0)(1,1)0.50.51RL222024/7/1634重庆大学刘辛重新回到市场进入模型x=1/2时，精练贝叶斯均衡为：低成本在位者选择p=4,高成本在位者选择p=6;进入者选择不进入，如果观测到p=4;进入者选择进入，如果观测到p=6.2024/7/1635重庆大学刘辛N高低在位者P=5P=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)P=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)x1-x在位者P=5P=6P=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)市场进入博弈-2阶段不完全信息动态博弈 x=1/2时，精练贝叶斯均衡为：低成本在位者选择p=4,高成本在位者选择p=6;进入者选择不进入，如果观测到p=4;进入者选择进入，如果观测到p=6.分离均衡2024/7/1636重庆大学刘辛精练贝叶斯纳什均衡X1/2给定在位给定在位者的后验者的后验概率和战概率和战略略高-在位者P=6进入者进入在位者利润：7+3在位者P=5进入者不进入在位者利润：6+7牺牲1单位换取4单位利润是合算的在位者P=5低-在位者P=5进入者不进入在位者利润：9+9最优选择给定两类在位者都选p=5，进入者不能从观测到价格中得到任何信息，x（5）=（1*x）/（1*x+1*（1-x）=x1/2,进入的期望利润x（1）+（1-x）*（-1）=2x-10,不进入的期望利润为0，因此不进入是最优的。混同均衡2024/7/1637重庆大学刘辛给定两类在位者都选p=5，进入者不能从观测到价格中得到任何信息，x（5）=（1*x）/（1*x+1*（1-x）=x1/2,进入的期望利润x（1）+（1-x）*（-1）=2x-10,不进入的期望利润为0，因此不进入是最优的。混同均衡2024/7/1638重庆大学刘辛精练贝叶斯纳什均衡因为两类在位者选择同样的价格，直观地讲，因为x=1/2低-在位者P=5进入者进入在位者利润：9+5最优选择在位者P=4 给定在给定在位者的后验位者的后验概率和战略概率和战略高-在位者P=4进入者不进入在位者利润：2+7分离均衡高-在位者P=6进入者进入在位者利润：7+3最优选择在位者P=62024/7/1640重庆大学刘辛精练贝叶斯纳什均衡分离均衡分离均衡因为不同类型的在位者选择了不同的价格。低成本在位者选择了非单阶段最优价格p=4;高成本在位者选择了单阶段最优垄断价格p=6如果低成本在位者选择p=5,无法将自己与高成本在位者分开，进入者将进入，但如果他选择p=4,高成本在位者不会模仿，进入者不进入，因此低成本在位者宁愿放弃3单位的现期利润换取4单位的下期利润。2024/7/1641重庆大学刘辛精练贝叶斯纳什均衡分离均衡分离均衡高成本在位者之所以不选择p=4,是因为成本太高，下阶段的4单位例如不足以弥补现期5单位的损失。不完全信息带来的唯一后果是，低成本在位者损失3单位的利润，这也可以说是他为了证明自己是低成本而支付的“认证”费用。2024/7/1642重庆大学刘辛占优均衡DSE重复剔除占优均衡IEDE纯战略纳什均衡PNE混合战略纳什均衡MNE请各对每种均衡举个例子完全信息静态博弈-纳什均衡2024/7/1643重庆大学刘辛占优战略均衡案例1-囚徒困境囚徒A囚徒 B坦白抵赖坦白抵赖抵赖是A的严格劣战略抵赖是B的严格劣战略2024/7/1644重庆大学刘辛重复剔除的占优均衡等待小猪大猪按等待按案例2-智猪博弈按是小猪的严格劣战略-剔除4大于10大于-1“按”是大猪的占优战略，纳什均衡：大猪按，小猪等待2024/7/1645重庆大学刘辛纳什均衡寻找纳什均衡C2R1R2C1C3R3玩家B玩家A（R3，C3）是纳什均衡）是纳什均衡2024/7/1646重庆大学刘辛混合战略纳什均衡n社会福利博弈流浪流浪汉政府救济不救济寻找工作设：政府救济的概率：1/2；不救济的概率：1/2。流浪汉：寻找工作的概率：0.2；流浪的概率：0.8每个玩家的战略都是给定对方混合战略时的最优战略2024/7/1647重庆大学刘辛完全信息动态搏弈 -子博弈精炼纳什均衡强盗分金1UDL（1，1)22，0RU（3，0)(0,2)2D 子博弈精练纳什均衡（U，U），L）.U和L分别是玩家1和玩家2在非均衡路径上的选择。逆向归纳法求解子博弈精练纳什均衡的过程，实质上是重复剔除劣战略的过程：从最后一个决策结依次剔除每个子博弈的劣战略，最后生存下来的战略构成精练纳什均衡。2024/7/1648重庆大学刘辛不完全信息静态博弈 -贝叶斯纳什均衡贝叶斯纳什均衡：n人不完全信息静态博弈的纯战略均衡是一个类型依存战略组合，其中每个玩家i在给定自己的类型i和其他玩家类型依存战略的情况下，最大化自己的期望效用。空城计2024/7/1649重庆大学刘辛不完全信息动态博弈 -精练贝叶斯纳什均衡精练贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求：1、在每个信息集上，决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布（信念）；2、给定该信息集上的概率分布和其他玩家的后续战略，玩家的行动必须是最优的；3、每一个玩家根据贝叶斯法则和均衡战略修正后验概率。黔之驴2024/7/1650重庆大学刘辛

展开阅读全文

第五章-不完美信息动态博弈课件

最新文档