完全信息动态博弈.ppt

资源描述

2 3完全信息动态博弈本节内容一博弈扩展式表述二子博弈完美纳什均衡三应用举例博弈的战略表述案例房地产开发项目假设有A B两家开发商市场需求可能大也可能小投入 1亿假定市场上有两栋楼出售需求大时每栋售价1 4亿需求小时售价7千万如果市场上只有一栋楼需求大时可卖1 8亿需求小时可卖1 1亿博弈战略表述不开发开发商A 开发不开发开发不开发开发商B 开发商A 开发不开发开发开发商B 需求小的情况需求大的情况博弈的战略式表述博弈的扩展式表述扩展式表述所扩展的主要是参与人的战略空间战略式表述简单地给出参与人有些什么战略可以选择而扩展式表述要给出每个战略的动态描述谁在什么时候行动每次行动时有些什么具体行动方案可供选择以及知道些什么此时的战略如果你这样我将怎样博弈的扩展式表述要素参与人集合参与人的行动顺序参与人的行动空间参与人的信息集参与人的支付函数外生事件即自然的选择的概率分布 A 开发不开发 N N 大小 1 2 1 2 大小 1 2 B B B B 开发不开发开发不开发开发不开发开发不开发 4 4 8 0 3 3 1 0 0 8 0 0 0 1 0 0 参与人集合参与人行动顺序参与人的行动空间参与人的信息集参与人的支付函数外生事件的概率分布房地产开发博弈结包括决策结和终点结两类决策结是参与人行动的始点终点结是决策人行动的终点结满足传递性和非对称性x之前的所有结的集合称为x的前列集P x x之后的所有结的集合称为x的后续集T x 枝枝是从一个决策结到它的直接后续结的连线每一个枝代表参与人的一个行动选择信息集每个信息集是决策结集合的一个子集该子集包括所有满足下列条件的决策结 1每个决策结都是同一个参与人的决策结 2该参与人知道博弈进入该集合的某个决策结但不知道自己究竟处于哪一个决策结信息集房地产博弈II B在决策时不确切地知道自然的选择 B的决策结由4个变为2个信息集房地产博弈III B知道自然的选择但不知道A的选择或A B同时决策信息集房地产博弈IV 博弈扩展式表述只包含一个决策结的信息集称为单结信息集如果博弈树的所有信息都是单结的该博弈称为完美信息博弈自然总是假定是单结的因为自然在参与人决策之后行动等价于自然在参与人之前行动但参与人不能观测到自然的行动不同的博弈树可以代表相同的博弈但是有一个基本规则一个参与人在决策之前知道的事情必须出现在该参与人决策结之前 A B 坦白抵赖 B B A A 坦白抵赖坦白抵赖 8 8 0 10 10 0 1 1 坦白抵赖坦白抵赖坦白抵赖 8 8 0 10 10 0 1 1 囚徒困境博弈的扩展式表述囚徒困境博弈的扩展式表述智猪博弈的扩展式表述等待小猪大猪按等待按案例2 智猪博弈动态博弈的战略的表述战略参与人在给定信息集的情况下选择行动的规则它规定参与人在什么情况下选择什么行动是参与人的相机行动方案在静态博弈中战略和行动是相同的作为一种行动规则战略必须是完备的性别战博弈的扩展式表述扩展式表述博弈的战略足球男的策略足球芭蕾选择足球还是选择芭蕾女的策略足球芭蕾芭蕾足球芭蕾芭蕾足球足球 1 追随策略他选择什么我就选择什么2 对抗策略他选择什么我就偏不选什么3 芭蕾策略不管他选什么我都选芭蕾 4 足球策略不管他选什么我都选足球策略即如果他选择什么我就怎样行动的相机行动方案在扩展式博弈里参与人是相机行事即等待博弈到达一个自己的信息集包含一个或多个决策结后再采取行动方案扩展式表述博弈的纳什均衡若A先行动 B在知道A的行动后行动则A有一个信息集两个可选择的行动战略空间为开发不开发 B有两个信息集四个可选择的行动 B有四个纯战略开发策略不论A开发不开发我开发追随策略 A开发我开发 A不开发我不开发对抗策略 A开发我不开发 A不开发我开发不开发策略不论A开发不开发我不开发简写为开发开发开发不开发不开发开发不开发不开发括号内的第一个元素对应A选择开发时B的选择第二个元素对应A选择不开发时B的选择什么是参与人的战略扩展式开发开发开发不开发不开发开发不开发不开发开发不开发开发商B 开发商A 战略式路径在扩展式博弈中所有n个参与人的一个纯战略组合决定了博弈树上的一个路径开发不开发开发决定了博弈的路径为A 开发 B 不开发 1 0 不开发开发开发决定了路径课堂练习参与人1 丈夫和参与人2 妻子必须独立决定出门时是否带伞他们知道下雨和不下雨的可能性均为50 支付函数为如果只有一人带伞下雨时带伞者的效用为 2 5 不带伞者的效用为 3 不下雨时带伞的效用为 1 不带的效用为0 如两人都不带伞下雨时每人的效用为 5 不下雨时每人的效用为1 给出下列四种情况下的扩展式及战略式表述 1 两人出门前都不知道是否会下雨并且两人同时决定是否带伞即每一方在决策时都不知道对方的决策 2 两人在出门前都不知道是否会下雨但丈夫先决策妻子观察到丈夫是否带伞后才决定自己是否带伞 3 丈夫出门前知道是否会下雨但妻子不知道但丈夫先决策妻子后决策 4 同 3 但妻子先决策丈夫后决策完全信息动态博弈子博弈完美纳什均衡泽尔腾 1965 考虑下列问题一个博弈可能有多个甚至无穷多个纳什均衡究竟哪个更合理纳什均衡假定每一个参与人在选择自己的最优战略时假定所有其他参与人的战略是给定的但是如果参与人的行动有先有后后行动者的选择空间依赖于前行动者的选择前行动者在选择时不可能不考虑自己的行动对后行动者的影响子博弈完美纳什均衡的一个重要改进是将合理纳什均衡与不合理纳什均衡分开完全信息动态博弈子博弈完美纳什均衡举例泽尔腾 1965 进入者进入不进入 0 300 在位者合作 40 50 斗争 10 0 市场进入阻挠博弈树特点剔除博弈中包含的不可置信威胁承诺行动破釜沉舟背水一战给定进入者进入剔除进入斗争进入默许是唯一的子博弈完美纳什均衡不可置信威胁支付函数行动子博弈完美纳什均衡一个纳什均衡称为完美纳什均衡当只当参与人的战略在每个子博弈中都构成纳什均衡也就是说组成完美纳什均衡的战略必须在每一个子博弈中都是最优的一个完美纳什均衡首先必须是一个纳什均衡但纳什均衡不一定是完美纳什均衡承诺行动当事人使自己的威胁战略变得可置信的行动完全信息动态博弈子博弈完美纳什均衡泽尔腾 1965 泽尔腾引入子博弈完美纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除从而给出动态博弈的一个合理的预测结果简单说子博弈完美纳什均衡要求均衡战略的行为规则在每一个信息集上是最优的子博弈完美纳什均衡不可置信威胁美国普林斯顿大学古尔教授在1997年的经济学透视里发表文章提出一个例子说明威胁的可信性问题两兄弟老是为玩具吵架哥哥老是要抢弟弟的玩具不耐烦的父亲宣布政策好好去玩不要吵我不管你们谁向我告状我都把你们两个关起来关起来比没有玩具更可怕现在哥哥又把弟弟的玩具抢去玩了弟弟没有办法只好说快把玩具还我不然我就要去告诉爸爸哥哥想你真要告诉爸爸我是要倒霉的可是你不告状不过没有玩具玩而告了状却要被关禁闭告状会使你的境遇变得更坏所以你不会告状因此哥哥对弟弟的警告置之不理的确如果弟弟是会算计自己利益的理性人在这样的环境下还是不告状的好可见弟弟是理性人他的告状威胁是不可置信的子博弈完美纳什均衡 A 开发不开发 B B 开发不开发开发 3 3 1 0 0 1 0 0 不开发不开发开发开发开发不开发开发开发不开发不开发如果A选择开发 B的最优选择是不开发如果A选择不开发 B的最优选择是开发 A预测到自己的选择对B的影响因此开发是A的最优选择子博弈完美纳什均衡结果是 A选择开发 B选择不开发 x x 对于不开发开发开发这个组合之所以构成纳什均衡是因为B威胁不论A开发还是不开发他都将选择开发 A相信了B的威胁不开发是最优选择但是A为什么要相信B的威胁呢毕竟如果A真开发 B选择开发得 3 不开发得0 所以B的最优选择是不开发如果A知道B是理性的 A将选择开发逼迫B选择不开发自己得1 B得0 即纳什均衡不开发开发开发是不可置信的因为它依赖于B的一个不可置信的威胁同样不开发不开发也是一个不可置信威胁纳什均衡开发不开发不开发是不合理的子博弈完美纳什均衡泽尔腾引入子博弈完美纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除从而给出动态博弈的一个合理的预测结果简单说子博弈完美纳什均衡要求均衡战略的行为规则在每一个信息集上是最优的什么是子博弈什么是子博弈完美纳什均衡有没有更好的方法找到子博弈完美纳什均衡子博弈由一个决策结x和所有该决策结的后续结T x 包括终点结组成它满足下列条件 1 x是一个单结信息集 2 子博弈不改变原博弈的信息集和支付向量子博弈条件1说的是一个子博弈必需从一个单结信息集开始即 1 当且仅当决策者在原博弈中确切地知道博弈进入一个特定的决策结时该决策结才能作为一个子博弈的开始 2 如果一个信息集包含两个以上决策结没有任何一个决策结可以作为子博弈的初始结条件2说的是子博弈的信息集和支付向量都直接继承自原博弈并不会发生任何变化这意味着子博弈不能分割原博弈的信息集完全信息动态博弈子博弈完美纳什均衡泽尔腾 1965 不开发不开发房地产开发博弈找出房地产开发博弈的子博弈不开发开发开发开发不开发开发开发不开发不开发完全信息动态博弈子博弈完美纳什均衡泽尔腾 1965 子博弈完美纳什均衡扩展式博弈的战略组合是一个子博弈完美纳什均衡如果 1 它是原博弈的纳什均衡 2 它在每一个子博弈上给出纳什均衡 A 开发不开发 B B 开发不开发开发 1 0 0 1 0 0 3 3 x x 房地产开发博弈不开发开发开发开发不开发开发开发不开发不开发在c上构成均衡在b上不构成在b和c上都构成在b上构成均衡在c上不构成完全信息动态博弈子博弈完美纳什均衡泽尔腾 1965 不开发判断下列均衡结果哪个构成子博弈完美纳什均衡不开发 b c 子博弈精炼纳什均衡可信性问题子博弈和逆向归纳法子博弈精炼纳什均衡应用举例有同时选择的两阶段动态博弈可信性开金矿博弈甲在开采一价值4万元的金矿时缺1万元资金而乙正好有1万元资金可以投资甲希望乙能将1万元资金借给自己用于开矿并许诺在采到金子后与乙对半分成乙是否该将钱借给甲呢开金矿I 无法律的博弈 1 0 开金矿II 有法律保障的博弈逆向归纳法逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始逐步向前倒推以求解动态博弈的方法用逆向归纳法求解的子博弈完美纳什均衡也要求所有的参与人是理性的是共同知识如果博弈由多个阶段组成则从逆向归纳法得到的均衡可能并不非常令人信服子博弈精炼纳什均衡扩展式博弈的战略组合s s1 si sn 是一个子博弈精炼纳什均衡如果 1 它是原博弈的纳什均衡 2 它在每一个子博弈上给出纳什均衡一个战略组合是一个子博弈精炼纳什均衡当只当它在每一个子博弈上都构成一个纳什均衡子博弈精炼纳什均衡应用举例斯坦克尔伯格 Stackelberg 寡头竞争模型劳资博弈讨价还价博弈 Stackelberg寡头竞争模型一个市场上只有两个企业他们的行动都是选择产量但行动有先后顺序企业1 领头企业 Leader 首先选择产量q1 0 企业2 尾随企业 Follower 观测到q1 然后选择自己的产量q2 0 设总产量Q q1 q2 两个企业有相同的不变单位成本c 0 需求函数P Q a Q a q1 q2 问题两个企业应如何决策库诺特模型与斯氏模型比较库诺特模型均衡结果 q1 q2 1 3 a c q1 q2 2 3 a c 1 2 1 9 a c 2 斯氏模型均衡结果 q1 1 2 a c q2 1 4 a c q1 q2 3 4 a c 1 1 8 a c 2 2 1 16 a c 2 张教材107页张教材43页劳资博弈工会决定工资水平但企业决定雇用多少人工会不只追求高工资还希望被雇人数多不喜欢高工资高失业也不喜欢低工资低失业工会方的效用是工资水平和雇用人数两者的函数u u w L 工会的目标是最大化总效用假设收益是劳动雇用量的函数R L 边际效益递减再假设只有劳动成本工厂的利润函数为 w L R L w L 讨价还价博弈 1 假设有甲乙两人就如何分割1万元进行谈判并且已定下了如下规则首先由甲提出一个分割比例对此乙可以接受也可以拒绝如果乙拒绝则乙自己应提出另一个方案让甲选择接受与否如此循环在循环中只要有任何一方接受对方的方案博弈就告结束而如果方案被拒绝则被拒绝的方案与以后的讨价还价过程不再有关系讨价还价博弈 2 每次一方提出一个方案和另一方选择是否接受为一个阶段再假设讨价还价每多进行一个阶段由于谈判费用和利息损失等双方的得益都要打一次折扣折扣率为 0 1 称为消耗系数如果限制讨价还价最多只能进行三个阶段到第三阶段乙必须接受甲的方案这就是一个三阶段讨价还价博弈接受不接受出S乙必须接受讨价还价博弈 3 甲出S1 乙接受不接受出S2 甲 S1 10000 S1 S2 10000 S2 2S 2 10000 S 第一阶段第二阶段第三阶段轮流出价的讨价还价模型分蛋糕的动态博弈游戏规则第一轮由第一个参与人小鹃提出条件第二个参与人小明可以接受从而游戏结束也可以不接受则游戏进入第二轮小明提出条件小鹃可以接受从而结束游戏也可以不接受从而进入第三轮蛋糕融化呈线性游戏结束蛋糕融化第一种情况假设博弈只有一步小鹃提出分配方案如果小明同意两个人按照约定分蛋糕如果小明不同意两人什么也得不到结果会怎样轮流出价的讨价还价模型第二种情况桌上放了一个冰淇淋蛋糕但两轮谈判过后蛋糕将完全融化博弈结果如何第三种情况桌上的冰淇淋蛋糕在三轮谈判后将完全融化结果又如何第四种情况桌上的冰淇淋蛋糕在四轮谈判后将完全融化或者在五轮谈判六轮 100轮谈判后将完全融化结果又如何博弈的结果是假如轮数是偶数双方各得一半假若轮数是奇数则小鹃得到 n 1 2n 小明得到 n 1 2n 囚徒的救赎好莱圬大片肖申克的救赎是一部很好看的电影主要内容是一个被冤屈的囚犯如何凭着坚定的信念和聪明才智逃出牢房我们的囚犯也可以通过好的策略合作摆脱困境的诅咒囚徒的救赎一报还一报一报还一报能够赢得竞赛不是靠打击对方而是靠从对方引出使双方都有好处的行为如果重复博弈多次就有报复的机会这种惩罚的规则是人家对你怎么做你就对他怎么做如果他上次背叛了你你这次背叛他如果上次他与你合作你这次就选择与他合作艾克谢罗德认为一报还一报体现了这个策略符合四个优点清晰善意报复性和宽恕性这一法则不会引发作弊所以是善意的它不会让作弊者逍遥法外所以是报复的它不会长时间怀恨在心只要作弊者改正就愿意恢复合作所以是宽恕的一报还一报从自己的不可欺负性得到好处还放弃了占他人便宜的可能性囚徒的救赎重复囚徒困境的几个建议 1 不要嫉妒2 不要首先背叛3 对合作和背叛都要给予回报4 不要耍小聪明旅行者困境做人不要太精明哈佛大学巴罗教授两个旅行者从一个以生产细瓷花瓶闻名的地方旅行回来在提取行李的时候发现花瓶被摔坏了就向航空公司索赔航空公司知道花瓶的价格大概杂八九十元但不知道他们购买的确切价格因此航空公司请两位旅客在100元以内写出花瓶的价格如果两个人写得一样就按照写的数额赔偿如果不一样原则上按照低的价格赔偿并认为该旅客讲了真话奖励2元而讲假话的罚款2元这个博弈的最终结果将是什么旅行者困境一位富翁的狗在散步时跑丢了于是他急匆匆到电视台发了一则启示有狗丢失归还者得酬金1万元并附有狗的彩照一个乞丐看到广告后第二天一大早就报着狗准备去领酬金当他经过一家大商店的墙体屏幕时发现酬金涨到了3万元乞丐又折回住处把狗重新拴在那里在接下来的几天里乞丐从来没有离开过这只大屏幕当酬金涨到使全市居民感到惊讶时乞丐返回他的住处可是那只狗已经死了在这个世界上金钱一旦被作为筹码就不会再买到任何东西重复博弈和无名氏定理序贯博弈不同阶段的博弈结构不同重复博弈同样结构的博弈重复多次其中的每次博弈可称阶段博弈影响重复博弈均衡结果有二其一博弈重复次数多次博弈可能使参与人选择合作影响重复博弈均衡结果之二信息的完备性当一个人的支付函数包括行动和结果不为其他人所知时他可能有积极性选择合作策略从而建立好声誉以换取长期利益有限次重复博弈连锁店悖论市场的先来后到重复博弈中在位者在第一次选择斗争时不可置信的威胁惟一的子博弈精炼纳什均衡是他总是默许倒着想如果已经进入了n 1个在最后一个时其威胁本来是不可置信的则最后一个会默许再往前推由于每阶段的斗争都是不可置信的则所有大门都在默许下向后来者敞开悖论我n大的市场岂容你染指斗但事实不会如此只要博弈的重复次数是有限的重复并不改变囚徒困境的结果无限次重复博弈和无名氏定理解开连锁店难题的办法之一是引入信息的不完全性不确定性可以成为经济运行的资源当博弈重复无限次时存在着完全不同与一次博弈的子博弈精炼纳什均衡冷酷战略或触发战略只要你骗我一次背叛我永远不理你不合作无名氏定理有一个一次博弈G可作为某无穷博弈的一个阶段 G有纳什均衡及其结果对于无限博弈肯定存在一个贴现因子使无限博弈的结果不劣弱优于G的纳什均衡结果参与人不固定的重复博弈重复博弈时厂商不敢以劣货欺人在经济学或管理学中使用信誉这样一个不好解释的概念但在博弈论中却在某些假设之下逻辑地证明了所谓信誉无非对自己行为的预期为什么买于坐贾而非行商为什么车站旁边的劣质品那么多企业存在的一个原因是创造一个长期参与人因其考虑长期利益而遵章守纪态度积极不确定环境下的重复博弈寡头市场上低需求时容易使他们都选择合作但在高需求时利润的诱惑使他们都选择背叛这种情况可以重复能同甘却不能共苦似乎有道德谴责的意味但这一现象总是发生发生的逻辑是什么博弈论可以解释作业五个海盗抢到100颗宝石他们决定按如下方法来分配先抽签决定顺序 1 2 3 4 5 然后先由1号提出分配方案其余的人进行表决当且仅当有半数和超过半数的人同意时则按1号所提方案分配否则将1号扔进大海喂鲨鱼当1号提出分配方案被否决后则由2号提出分配方案其余的人进行表决当且仅当半数和超过半数的人同意时则按2号所提方案分配否则将2号扔进大海喂鲨鱼以后依此类推假定这些海盗都是理性人问第一个海盗应提出怎样的分配方案才能获得通过并使自己的收益最大

展开阅读全文