第五讲-博弈论教学课件

资源描述

第五讲第五讲博弈论博弈论46、法律有权打破平静。马格林47、在一千磅法律里，没有一盎司仁爱。英国48、法律一多，公正就少。托富勒49、犯罪总是以惩罚相补偿；只有处罚才能使犯罪得到偿还。达雷尔50、弱者比强者更能得到法律的保护。威厄尔1.2 博弈论的发展简史博弈博弈思想最早产生于我国古代。思想最早产生于我国古代。早早在在两两千千多多年年的的春春秋秋时时期期，孙孙武武在在孙孙子子兵兵法法中中论论述述的的军军事事思思想想和和治治国国策策略略，就就蕴蕴育育了了丰丰富富和和深深刻刻的的对对策策论论思思想想。孙孙武武的的后后代代孙孙膑膑，为为田田忌忌谋谋划划，巧巧胜胜齐齐王王，这这个个著著名名的的“田田忌忌赛赛马马”，就就是是典典型型的的对对策思想的成功运用。策思想的成功运用。田忌赛马田忌赛马齐国的大将田忌，很喜欢赛马，有一回，他和齐威王约定，要进行一场比赛。他们商量好，把各自的马分成上，中，下三等。比赛的时候，要上马对上马，中马对中马，下马对下马。由于齐威王每个等级的马都比田忌的马强得多，所以比赛了几次，田忌都失败了。田忌觉得很扫兴，比赛还没有结束，就垂头丧气地离开赛马场，这时，田忌抬头一看，人群中有个人，原来是自己的好朋友孙膑。孙膑招呼田忌过来，拍着他的肩膀说：“我刚才看了赛马，威王的马比你的马快不了多少呀。”田忌赛马田忌赛马孙膑还没有说完，田忌瞪了他一眼：“想不到你也来挖苦我！”孙膑说：“我不是挖苦你，我是说你再同他赛一次，我有办法准能让你赢了他。”田忌疑惑地看着孙膑：“你是说另换一匹马来？”孙膑摇摇头说：“连一匹马也不需要更换。”田忌毫无信心地说：“那还不是照样得输！”孙膑胸有成竹地说：“你就按照我的安排办事吧。”田忌赛马田忌赛马齐威王屡战屡胜，正在得意洋洋地夸耀自己马匹的时候，看见田忌陪着孙膑迎面走来，便站起来讥讽地说：“怎么，莫非你还不服气？”田忌说：“当然不服气，咱们再赛一次！”说着，“哗啦”一声，把一大堆银钱倒在桌子上，作为他下的赌钱。齐威王一看，心里暗暗好笑，于是吩咐手下，把前几次赢得的银钱全部抬来，另外又加了一千两黄金，也放在桌子上。齐威王轻蔑地说：“那就开始吧！”一声锣响，比赛开始了。田忌赛马田忌赛马孙膑先以下等马对齐威王的上等马，第一局输了。齐威王站起来说：“想不到赫赫有名的孙膑先生，竟然想出这样拙劣的对策。”孙膑不去理他。接着进行第二场比赛。孙膑拿上等马对齐威王的中等马，获胜了一局。齐威王有点心慌意乱了。第三局比赛，孙膑拿中等马对齐威王的下等马，又战胜了一局。这下，齐威王目瞪口呆了。比赛的结果是三局两胜，当然是田忌赢了齐威王。还是同样的马匹，由于调换一下比赛的出场顺序，就得到转败为胜的结果。1.2 博弈论的发展简史一、起源法国经济学家奥古斯丁古诺(Augustin Cournot 1838)古诺模型英国经济学家弗朗西斯埃奇沃斯(Francis Edgeworth 1881)伯川德(Bertrand)和斯坦克伯格(Stackelberg)二、早期突破E策墨罗(EZermelo)于1913年对于象棋游戏的研究。证明了象棋游戏总是有解，即在棋盘的任何一种状态，两个参与者中的一个有赢的策略。开创了求解一类博弈的技巧，即后退归纳法三、近代(1)约翰冯诺依曼(John von Neumann)于1928发表的论文(2)1944年，科学家冯诺伊曼和经济学家奥斯卡摩根斯坦合著博弈与博弈与经济行行为的的理理论(The theory of Games and Economic Behaviour)被公认为是博弈论的开山之作。以往的数学是在物理学的基础上发展起来的，描述的是客观世界行为，而经济学研究的对象更像是一场游戏中的参与者，相互之间预期对方的行动，因此，描述、观察研究对象就需要一系列的数学工具，这一套新的数学工具，被他们命名为博弈论。奥斯卡摩根斯坦（Oskar Morgenstern）19021977，生于西里西亚的戈尔利策。1944年加入美国籍。热心于将数学应用于人类的各种战略问题（不管是商业、战争，还是科学研究），以便获得最大利益和尽可能地减少损失。他认为这些原理也同样适用于哪怕简单得象抛掷硬币这样的游戏，因而提出了对策论（博弈论）。约翰冯诺依曼（John Von Neumann）19031957，美藉匈牙利人。18岁与老师合作发表第一篇数学论文，22岁获数学博士学位。1927年一1929年冯诺依曼相继在柏林大学和汉堡大学担任数学讲师。1931年成为美国普林斯顿大学的第一批终身教授。1933年转到该校的高级研究所，成为最初六位教授之一，并在那里工作了一生冯诺依曼是普林斯顿大学、宾夕法尼亚大学、哈佛大学、伊斯坦堡大学、马里兰大学、哥伦比亚大学和慕尼黑高等技术学院等校的荣誉博士是美国国家科学院、秘鲁国立自然科学院和意大利国立林且学院等院的院士 1954年任美国原子能委员会委员；1951年至1953年任美国数学会主席。“计算机之父”“博弈论之父”。冯诺依曼和摩根斯坦的贡献1，提出博弈的概念；2，对效用理论给予公理依据；3，零和博弈(Zero-sum Games)的最优解；4，引进博弈论的一种形式，即合作博弈(cooperative Games)博弈论的发展简史四、发展 1、纳什均衡(Nash-Equilibrium)1950年，约翰纳什(John Nash)引入均衡(解)的概念，即纳什均衡，将博弈论从零和博弈推进到非零和博弈(即参与人会出现双赢或双输的情况)合作博弈中的讨价还价模型定义非合作博弈及证明均衡解的存在纳什获得1994年诺贝尔经济学奖2、子博弈完美纳什均衡和贝叶斯纳什均衡(Subgame-Perfect Nash-Equilibrium;Bayes-Nash Equilibrium)1965年和1975年兰哈德泽尔藤(Reinhard Selten)把纳什均衡推广到动态博弈，并提出子博弈完美纳什均衡；1967-1968年间，约翰海萨尼(John Harsanyi)把纳什思想推广到不完全信息模型，提出贝叶斯均衡；他们与纳什一起分享1994年诺贝尔经济学奖3、不对称信息条件下交易的对策1996年诺贝尔经济学奖获得者詹姆斯莫里斯教授和威廉姆维克瑞教授在20世纪60、70年代提示不对称信息对交易带来的影响，并提出相应对策。4、信息经济2001年诺贝尔经济学奖授予美国乔治阿克尔洛夫教授、迈克尔斯彭斯教授、约瑟夫斯蒂格利茨教授。20世纪70年代他们提示当代信息经济的核心，信息是有价值的。1970年阿克尔洛夫提出旧车市场模型并提出：市场放开不能解决所有问题，信息是有价值的1973年斯彭斯通过剖析人才市场盛行的造假行为指出人才市场存在用人单位与应聘者之间的信息不对称，造成“劣币”驱逐“良币”现象斯蒂格利茨将信息不对称理论应用于保险和金融市场5 2005年年，以色列经济学家罗伯特-奥曼和美国经济学家托马斯-谢林，因“通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献而获奖。三、博弈论与诺贝尔经济学奖获得者1994年诺贝尔经济学奖获得者美国人约翰-海萨尼(John C.Harsanyi)和美国人约翰-纳什(John F.Nash Jr.)以及德国人莱因哈德-泽尔腾(Reinhard Selten)获奖理由：在非合作博弈的均衡分析理论方面做出了开创性的贡献，对博弈论和经济学产生了重大影响。约翰约翰纳什纳什1928年生于美国年生于美国约翰约翰海萨尼海萨尼19201920年生年生于美国于美国莱因哈德莱因哈德泽尔腾，泽尔腾，19301930年生年生于德国于德国1996年诺贝尔经济学奖获得者英国人詹姆斯莫里斯(James A.Mirrlees)和美国人威廉-维克瑞(William Vickrey)获奖理由：前者在信息经济学理论领域做出了重大贡献，尤其是不对称信息条件下的经济激励理论的论述；后者在信息经济学、激励理论、博弈论等方面都做出了重大贡献。詹姆斯詹姆斯莫里斯莫里斯19361936年生于英国年生于英国威廉维克瑞，1914-1996，生于美国2001年诺贝尔经济学奖获得者三位美国学者乔治-阿克尔洛夫(George A.Akerlof)、迈克尔-斯彭斯(A.Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E.Stiglitz)获奖理由：在“对充满不对称信息市场进行分析”领域做出了重要贡献。约瑟夫斯蒂格利茨，1943年生于美国的印第安纳州，1967年获美国麻省理工学院博士头衔，曾担任世界银行的首席经济学家，现任美国哥伦比亚大学经济学教授乔治阿克尔洛夫1940年生于美国的纽黑文，1966年获美国麻省理工学院博士头衔，现为美国加利福尼亚州大学经济学教授。迈克尔斯彭斯1948年生于美国的新泽西，1972年获美国哈佛大学博士头衔，现兼任美国哈佛和斯坦福两所大学的教授。2005年诺贝尔经济学奖获得者以罗伯特奥曼色列经济学家罗伯特奥曼（Robert J.Aumann）和美国经济学家托马斯谢林（Thomas Thomas C.SchellingC.Schelling）获奖原因：“通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献而获奖。罗伯特奥曼托马斯谢林 1博弈论在经济学领域中应用最广泛，最博弈论在经济学领域中应用最广泛，最成功；博弈论的许多成果也是借助于经济学的成功；博弈论的许多成果也是借助于经济学的例子来发展引申的例子来发展引申的;2经济学家对博弈论的贡献也越来越大，经济学家对博弈论的贡献也越来越大，特别是在动态分析和不完全信息引入博弈后，特别是在动态分析和不完全信息引入博弈后，例如克瑞普斯，威尔逊都是经济学家例如克瑞普斯，威尔逊都是经济学家;3最根本性的原因是经济学和博弈论的研最根本性的原因是经济学和博弈论的研究模式是一样的，都强调个人理性，即追求给究模式是一样的，都强调个人理性，即追求给定条件下效用最大化。定条件下效用最大化。博弈专家之所以获经济学奖，原因大致有三点：博弈专家之所以获经济学奖，原因大致有三点：博弈论的基本概念博弈是指一些个人、团队或组织，面对一博弈是指一些个人、团队或组织，面对一定的环境条件，在一定的规则下，同时或先后，定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自从中取得相应结果进行选择并加以实施，各自从中取得相应结果的过程。的过程。博弈论就是描述在这种形势下各方理性地博弈论就是描述在这种形势下各方理性地选择自己的行动所实现的结果，分析各决策主选择自己的行动所实现的结果，分析各决策主体的行为发生相互作用时的决策以及这种决策体的行为发生相互作用时的决策以及这种决策的均衡问题。的均衡问题。例：房地产开发1、A B两个开发商，投资两个开发商，投资1亿；亿；2、如果市场上有两栋房出售，需求大，、如果市场上有两栋房出售，需求大，每栋：每栋：1.4亿；需求小，每栋：亿；需求小，每栋：7千万；千万；如果市场上有一栋房出售，需求大，每如果市场上有一栋房出售，需求大，每栋：栋：1.8亿；需求小，每栋：亿；需求小，每栋：1.1亿；亿；3、开发与不开发。、开发与不开发。8种可能的结果1、需求大，、需求大，A开发，开发，B不开发，则不开发，则A的的利润利润8千万，千万，B的利润为的利润为0；2、需求大，、需求大，A开发，开发，B开发，则开发，则A的利的利润润4千万，千万，B的利润的利润4千万；千万；3、需求大，、需求大，A不开发，不开发，B开发，则开发，则A的的利润利润0，B的利润为的利润为8千万；千万；4、需求大，、需求大，A不开发，不开发，B不开发，利润不开发，利润各为各为05、需求小，、需求小，A开发，开发，B不开发，则不开发，则A的的利润利润1千万，千万，B的利润为的利润为0；6、需求小，、需求小，A开发，开发，B开发，则开发，则A的利的利润润-3千万，千万，B的利润的利润-3千万；千万；7、需求小，、需求小，A不开发，不开发，B开发，则开发，则A的的利润利润0，B的利润为的利润为1千万；千万；8、需求小，、需求小，A不开发，不开发，B不开发，利润不开发，利润各为各为0 如果需求是不确定的，是否开发依赖于如果需求是不确定的，是否开发依赖于各自在多大程度上认为市场需求是大的及各自在多大程度上认为市场需求是大的及对方是否开发。对方是否开发。例：如需求大的概率为例：如需求大的概率为0.3，A认为认为B开发开发的可能性为的可能性为x,那么那么A开发的期望利润为：开发的期望利润为：Eu=0.34000 x+8000(1-x)+0.7-3000 x+1000(1-x)A不开发的期望利润为不开发的期望利润为0。解。解Eu0 x31/40博弈三要素、信息及博弈均衡（1）局中人（）局中人（player）：指参加博弈的各个决策个体，）：指参加博弈的各个决策个体，既可以是自然人，也可以是团体。局中人都是既可以是自然人，也可以是团体。局中人都是“理性理性”的，即他清楚地了解自己的目标或利益所在，在决的，即他清楚地了解自己的目标或利益所在，在决策时考虑自己的知识（信息）以及对其他局中人策略策时考虑自己的知识（信息）以及对其他局中人策略的期望，总是采取最佳行动（或策略）以实现其支付的期望，总是采取最佳行动（或策略）以实现其支付的最大化。的最大化。虚拟局中人：自然虚拟局中人：自然，是外部随机变量，对所有利益，是外部随机变量，对所有利益主体都无差异。主体都无差异。一般用一般用i=1,n代表参与人，代表参与人，N代表自然代表自然（2）行动与战略行动与战略（actions or strategies）。行动是局中人在博弈的某个时点的决策变量；每行动是局中人在博弈的某个时点的决策变量；每一个局中人的所有可能选择的行动的集合称这该一个局中人的所有可能选择的行动的集合称这该局中人的行动空间（局中人的行动空间（action space）；所有局中）；所有局中人的行动的一个有序集合称为该博弈的一个行动人的行动的一个有序集合称为该博弈的一个行动组合（组合（action profile）；）；ai 表示第表示第i个参与人的一个特定行动；个参与人的一个特定行动；Ai=ai表示可供表示可供i选择的所有行动的集合；选择的所有行动的集合；在在n人博弈中，人博弈中，n个参与人的行动的有序集个参与人的行动的有序集a=(a1,.,ai,.an)称为行动组合称为行动组合（2）战略战略（strategies）。是局中人在所有给。是局中人在所有给定信息集（信息集是局中人在特定时刻进行决策定信息集（信息集是局中人在特定时刻进行决策时所面对的集合）下的行动规则，他规定局中人时所面对的集合）下的行动规则，他规定局中人在什么时候选择什么行动。在什么时候选择什么行动。si 表示第表示第i个参与人的一个特定战略；个参与人的一个特定战略；Si=si表示可供表示可供i选择的所有可选择的战略选择的所有可选择的战略集合；集合；在在n人博弈中，人博弈中，n个参与人每人选择一个战个参与人每人选择一个战略，略，n维向量维向量s=(s1,.,si,.sn)称为一个称为一个战略组合战略组合（3）信息（信息（information）：是局中人有关博弈）：是局中人有关博弈的知识，特别是有关其他局中人的特征（如策略的知识，特别是有关其他局中人的特征（如策略空间、支付函数等等）和行动的知识。信息集空间、支付函数等等）和行动的知识。信息集（information sets）是局中人在特定时刻进行）是局中人在特定时刻进行决策时，所面对的信息变量值的集合。共同知识决策时，所面对的信息变量值的集合。共同知识（common knowledge）是指）是指“所有局中人知道，所有局中人知道，所有局中人知道所有局人知道，所有局中人知道所有局人知道，”（或信息）。（或信息）。如果局中人的策略选择、支付函数等都是共同知如果局中人的策略选择、支付函数等都是共同知识，则称之为完全信息（识，则称之为完全信息（complete information），否则就是不完全信息（），否则就是不完全信息（incomplete information）（4）支付（支付（pay off）：指在一个特定的策略组合下，：指在一个特定的策略组合下，局中人得到的效用水平或期望效用水平。一个局中人的支局中人得到的效用水平或期望效用水平。一个局中人的支付是所有局中人的策略选择的函数，它不仅取决于自己的付是所有局中人的策略选择的函数，它不仅取决于自己的策略选择，而且还取决于（他所设想的）所有其他局中人策略选择，而且还取决于（他所设想的）所有其他局中人的策略选择，任何一个局中人改变自己的策略都将影响其的策略选择，任何一个局中人改变自己的策略都将影响其他局中人的支付水平，即，局中人之间的利益是相互牵制他局中人的支付水平，即，局中人之间的利益是相互牵制的和制约的。所有局中人的支付的一个有序集合称为博弈的和制约的。所有局中人的支付的一个有序集合称为博弈的一个支付组合（的一个支付组合（payoff profile。Ui=Ui(s1,s2,si sn)参与博弈的多个局中人的收益可用一个矩阵或框图表示，参与博弈的多个局中人的收益可用一个矩阵或框图表示，这种矩阵或框图叫做收益矩阵。这种矩阵或框图叫做收益矩阵。（5）博弈均衡博弈均衡（games equilibrium）：）：是指所有局中人的最优策略组合。是指所有局中人的最优策略组合。S*=（S1*，Si*,Sn*)其中，其中，Si*是第是第i个参与人在均衡情况下的最个参与人在均衡情况下的最优策略，它是优策略，它是i的所有可能的战略中使的所有可能的战略中使Ui或或Eui最大化的战略。最大化的战略。（5）博弈均衡博弈均衡（games equilibrium）：）：为了把一个特定的参与人与其他参与人相为了把一个特定的参与人与其他参与人相区别，用区别，用那么，说那么，说博弈的类型根据博弈者选择的策略，博弈论可划分根据博弈者选择的策略，博弈论可划分为合作博弈与非合作博弈。纳什（为合作博弈与非合作博弈。纳什（Nash）、）、泽尔腾（泽尔腾（Selten）和）和豪尔绍尼豪尔绍尼（Harsanyi）（）（19941994诺贝尔经济学奖获得者）诺贝尔经济学奖获得者）的主要贡献在于非合作博弈方面，而且现在大的主要贡献在于非合作博弈方面，而且现在大多数经济学家论及博弈时，也主要是指非合作多数经济学家论及博弈时，也主要是指非合作博弈。博弈。合作博弈和非合作博弈的区别在于人们的行动合作博弈和非合作博弈的区别在于人们的行动为相互作用时，当事人能否达成一个具有约束力为相互作用时，当事人能否达成一个具有约束力（binding agreement）的协议。若有，就是合作博）的协议。若有，就是合作博弈；否则就是非合作博弈。弈；否则就是非合作博弈。合作博弈强调的是团体理性、效率、公正和公平。合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策，其非合作博弈强调的是个人理性、个人最优决策，其结果可能是有效率的，也可能是无效率的。结果可能是有效率的，也可能是无效率的。从局中人行动的先后顺序可划分为静态博弈从局中人行动的先后顺序可划分为静态博弈（Static gameStatic game）和动态博弈（）和动态博弈（dynamic gamedynamic game）。）。静态博弈是指在博弈中，局中人同时选择行动或虽静态博弈是指在博弈中，局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺么具体行动。动态博弈是指局中人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。序，且后行动者能够观察到先行动者所选择的行动。从局中人是否具有有关其他参与人（对手）从局中人是否具有有关其他参与人（对手）的特征、策略空间及支付函数方面的知识的角的特征、策略空间及支付函数方面的知识的角度，可划分为完全信息博弈度，可划分为完全信息博弈(game of complete information)和不完全信息博弈和不完全信息博弈(game of incomplete information)。博弈的分类博弈的分类特征特征完全信息完全信息不完全信息不完全信息静态静态纳什均衡纳什均衡纳什（纳什（1950，1951）贝叶斯纳什均衡贝叶斯纳什均衡豪尔绍尼（豪尔绍尼（1967，1968）动态动态子博弈精练纳什子博弈精练纳什均衡均衡泽尔腾（泽尔腾（1965）精练贝叶斯纳什均衡精练贝叶斯纳什均衡泽尔腾（泽尔腾（1975）克瑞普斯和威尔逊克瑞普斯和威尔逊（1982）零和博弈与非零和博弈(zero-sumgameandnon-zero-sumgame)如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为零，这个博弈就叫零和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为零，这个博弈就叫非零和博弈。零和博弈是利益对抗程度最高的博弈。常和博弈与非常和博弈（constant-sumgameandvariable-sumgame）如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为一个常数，这个博弈就叫常和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为一个常数，这个博弈就叫非常和博弈。常和博弈也是利益对抗程度最高的博弈。非常和（变和）博弈蕴含双赢或多赢。博弈的表述方式：战略式与扩展式战略式表述又称为标准式表述，在这种表述中，所有参与人同时选择各自的战略，所有参与人选择的战略一起决定每个参与人的支付。博弈的表述方式：策略式与扩展式策略式：支付矩阵策略式：支付矩阵囚犯囚犯B的的策略策略囚犯囚犯A的策略的策略坦白坦白抵赖抵赖坦白坦白-8，-80，-10抵赖抵赖-10，0-1，-1扩展式：博弈树扩展式：博弈树（4,4）（8,0）（-3,-3）（1,0）（0,8）（0,0）（0,1）（0,0）开发开发不开发不开发开发开发不开发不开发开发开发不开发不开发开发开发不开发不开发BBBB大大大大小小小开发开发不开发不开发NN（1/2）（1/2）（1/2）（1/2）8-1A 博弈论进入主流经济学，反映了经济学发展的以下几个趋势：第一，经济学研究的对象越来越转向个体，放第一，经济学研究的对象越来越转向个体，放弃了一些没有微观基础的假定，如消费函数及其弃了一些没有微观基础的假定，如消费函数及其投资函数、销售最大化等，一切从个人效用函数投资函数、销售最大化等，一切从个人效用函数及其约束条件开始，解约束条件下的个人效用函及其约束条件开始，解约束条件下的个人效用函数及其约束条件开始，解约束条件下的个人效用数及其约束条件开始，解约束条件下的个人效用最大化问题而导出行为及均衡结果。最大化问题而导出行为及均衡结果。第二，经济学越来越转向人与人关系第二，经济学越来越转向人与人关系的研究，特别是人与人之间行为的相互的研究，特别是人与人之间行为的相互影响和作用，人们之间的利益冲突与一影响和作用，人们之间的利益冲突与一致，竞争与合作的研究。致，竞争与合作的研究。第三，第三，经济学越来越重视对信息的研经济学越来越重视对信息的研究，特别是信息不对称对个人选择及制究，特别是信息不对称对个人选择及制度安排的影响。度安排的影响。完全信息静态博弈一、占有战略均衡二、重复剔除的占优战略均衡三、纳什均衡四、混合战略纳什均衡五、纳什均衡的存在性与多重性完全信息静态博弈的几点特性完全信息静态博弈的几点特性同时出招，出招一次；知道博弈结构与游戏规则（共同知识）；不管是否沟通过，无法做出有约束力的承诺（非合作）一、占优战略均衡通常情况下，每个局中人的支付是博弈中所有参与通常情况下，每个局中人的支付是博弈中所有参与人策略的函数，故每个局中人的最优策略选择依赖人策略的函数，故每个局中人的最优策略选择依赖于所有其他参与人的策略选择。但于所有其他参与人的策略选择。但在一些特殊博弈在一些特殊博弈中，一个参与人的最优策略选择可能并不依赖于其中，一个参与人的最优策略选择可能并不依赖于其他参与人的策略选择，即无论其他参与人选择什么他参与人的策略选择，即无论其他参与人选择什么策略，他的最优策略是唯一的，这种最优策略被称策略，他的最优策略是唯一的，这种最优策略被称为为“占优策略占优策略”（dominant strategy）。）。定义：在博弈G=N,(Si)iN,(Ui)iN中，如果对所有的参与人i,si*是它的占优战略，那么所有参与人选择的战略组合（s1*,sn*）成为该对策的占优战略均衡。例：例：“囚徒困境囚徒困境”囚徒困境是博弈论中的经典案例。该故事讲的是，囚徒困境是博弈论中的经典案例。该故事讲的是，两个嫌疑犯作案后被警察抓住，分别被关在不同的两个嫌疑犯作案后被警察抓住，分别被关在不同的房间里进行审讯。警察知道两人有罪，但缺乏有力房间里进行审讯。警察知道两人有罪，但缺乏有力的证据，除非两人之中有一个坦白。警察告诉每个的证据，除非两人之中有一个坦白。警察告诉每个人，他们的可选择的策略与支付如下表：人，他们的可选择的策略与支付如下表：一、占优策略均衡在该博弈中，每个囚徒有两种可能选择的策略：坦白和在该博弈中，每个囚徒有两种可能选择的策略：坦白和抵赖。显然，无论同伙选择什么策略，每个囚徒的最优策略抵赖。显然，无论同伙选择什么策略，每个囚徒的最优策略都是都是“坦白坦白”。如，。如，B选择坦白，若选择坦白，若A选择坦白时支付为选择坦白时支付为-8，选择抵赖时支付为选择抵赖时支付为-10，因而坦白比抵赖好；若，因而坦白比抵赖好；若B选择抵赖，选择抵赖，A坦白时的支付为坦白时的支付为0，抵赖时为，抵赖时为-1，因而坦白比抵赖好。即是，因而坦白比抵赖好。即是说，说，“坦白坦白”是是A的占优策略。同样，的占优策略。同样，“坦白坦白”也是也是B的占优的占优策略。策略。囚犯囚犯B的的策略策略囚犯囚犯A的策略的策略坦白坦白抵赖抵赖坦白坦白-8，-80，-10抵赖抵赖-10，0-1，-1“囚犯困境”的扩展两个寡头企业选择产量公共产品的供给军备竞赛经济改革结论：一种制度安排，要发生效力。必须是一种纳什均衡；否则，制度安排便不能成立。价格大战低价高价低价3，36，1高价1，65，5支付百事可乐可口可乐二、重复剔除的占优战略均衡在绝大多数博弈中，并不存在占优策略均衡。但在绝大多数博弈中，并不存在占优策略均衡。但在有些博弈中，仍可应用占优的逻辑找出均衡。在有些博弈中，仍可应用占优的逻辑找出均衡。案例：案例：“猪智博弈猪智博弈”猪圈里有两头猪（大猪和小猪），猪圈一头有一猪圈里有两头猪（大猪和小猪），猪圈一头有一猪食槽猪食槽,另一头安装着一个按制猪食供应的按钮，按另一头安装着一个按制猪食供应的按钮，按一下钮，有一下钮，有8个单位的猪食进槽，但需个单位的猪食进槽，但需2个单位的成个单位的成本。两头猪有两种策略：按钮和等待。具体的博弈本。两头猪有两种策略：按钮和等待。具体的博弈支付和结果如下表：支付和结果如下表：按按钮的猪按按钮的猪吃到的猪食吃到的猪食大猪大猪小猪小猪大猪大猪44小猪小猪71两猪同时两猪同时53 按按钮对对吃食量的影响按按钮对对吃食量的影响小猪小猪按按钮按按钮等待等待大猪大猪按按钮按按钮3，12，4等待等待7，-10，0 猪智博弈猪智博弈依赖于小猪的策略：若小猪选依赖于小猪的策略：若小猪选“等待等待”，大猪，大猪的最优策略是的最优策略是“按按”；若小猪选；若小猪选“按按”，大猪的最优，大猪的最优策略为策略为“等待等待”。因此，不能用上述占优策略找出均。因此，不能用上述占优策略找出均衡。衡。可能的均衡是什么呢？若小猪是理性的，他只会可能的均衡是什么呢？若小猪是理性的，他只会选选“等待等待”，因为，因为“等待等待”严格优于严格优于“按按”。假定大。假定大猪知道小猪是理性的，则会预测到小猪的选择；此时，猪知道小猪是理性的，则会预测到小猪的选择；此时，大猪的最优选择只能是大猪的最优选择只能是“按按”。因此，（按，等待）。因此，（按，等待）是该博弈唯一的均衡。是该博弈唯一的均衡。找出上述均衡的思路是：先找出某个参与人的劣策略找出上述均衡的思路是：先找出某个参与人的劣策略（假定存在），把它剔除，重新构造一个不包含已剔（假定存在），把它剔除，重新构造一个不包含已剔除策略的新博弈；然后再剔除新博弈中某个参与人的除策略的新博弈；然后再剔除新博弈中某个参与人的劣策略；劣策略；直至剩下一个唯一的策略组合。该策略直至剩下一个唯一的策略组合。该策略组合就是博弈的均衡解，称为组合就是博弈的均衡解，称为“重复剔除的占优策略重复剔除的占优策略智猪博弈的扩展股份公司承担监督经理职能的大股东与小股东股票市场上炒股票的大户与小户市场中大企业与小企业在研发、广告上的博弈公共产品的提供（富户与穷户）改革中不同利益分配对改革的推动二、重复剔除的占优战略均衡绝对劣势战略：si是一绝对劣势战略当且仅当存在另一战略siSi使得ui(si,s-i)ui(si,s-i)对所有s-iS-i均成立。（si 未必是优势战略）重复剔除的占优战略均衡：逐次删去绝对劣势战略得到唯一的占优战略。例：找出下列博弈的重复剔除的占优策略均衡例：找出下列博弈的重复剔除的占优策略均衡局中人局中人BLMR局中局中人人AU1，01，20，1D0，30，12，0 解解：局中人局中人BLM局中人局中人AU1，01，2D0，30，1局中人局中人BLM局中人局中人AU1，01，2三、纳什均衡纳什均衡定义：指一战略组合有以下特性：当参与人持此战略后，任一参与人均无诱因偏离这一均衡；s*=(s1*,sn*)=(si*,s-i*)是一纳什均衡，当且仅当对所有参与人而言，ui(si*,s-i*)ui(si,s-i*)对所有siSi 均成立。简单而言，当s1*是对s2*的最适反应，s2*也是s1*的最适反应时，（s1*,s2*）就是二人博弈的纳什均衡。命题1：纳什均衡在占优战略重复剔除解法中不会被剔除命题2：重复剔除的严格占优战略均衡一定是纳什均衡。策略组合就是一个纳什均衡。策略组合就是一个纳什均衡。表表参与人BLCR参与人AU0，44，05，3M4，00，45，3D3，53，56，6斗鸡博弈 0，00，2退2，0-3，-3进退进12支付“斗鸡博弈”的扩展夫妻间吵架警察与游行队伍公共产品的供给（两富户修路）四、混合战略纳什均衡混合战略（mixed strategies）定义：*=(1*,n*)=(i*,-i*)是一纳什混合战略均衡，当且仅当对所有参与人而言，i*是-i*的最适反应，ui(i*,-i*)ui(I,-i*)，对所有ii成立)。持混合战略的前提是在均衡时两种战略的报酬会相等，是预期支付最大化的推导结果。掷硬币-1，11，-1反面1，-1-1，1正面反面正面12支付 p 1-pq1-q参与人参与人1:max Eu=q(p(-1)+(1-p)1)+(1-q)(p1+(1-p)(-1)=-pq+q-pq+p-pq-1+q+p-pq =-4pq+2q+2p-1一阶条件为零求得：一阶条件为零求得：p=1/2掷硬币的分析给定参与人1（q,1-q），参与人2的支付是：q+(-1)(1-q)（正面）=(-1)q+(1-q)（反面）;给定参与人2（p,1-p），参与人1的支付为：p(-1)+(1-p)（正面）=p+(-1)(1-p)（反面）；求得（1/21/2，1/21/2）是纳什混合战略均衡）是纳什混合战略均衡如果两种战略报酬不相等，那么就变为纯战略（pure strategies）了。混合战略均衡的博弈原则两博弈方不能让对方知道或猜到自己的选择，因而必须在决策时利用随机性；两博弈方选择每种策略的概率一定要恰好使对方无机可乘，即让对方无法通过针对性地倾向某一策略而在博弈中占上风。例：在掷硬币的博弈中，参与人1选正面、反面的概率q,1-q，一定要使参与人2选正面的和反面的期望得益相等。单纯战略与混合战略的定义如果一个战略规定参与人在每一个给定的信息情况下只选择一种特定的行动，则称该战略为纯战略；如果一个战略规定参与人在给定的信息情况下以某种概率分布随机地选择不同的行动，则称该战略为混合战略。定义：在n个参与人博弈的战略式表述单纯战略与混合战略的定义单纯战略是混合战略的特例，因为任一单纯战略si都可以理解为i以概率1选择si，以0概率选取其他所有单纯战略。引入混合战略，参与人的目标需要修改为“最大化自己的期望支付”社会福利博弈流浪汉的流浪汉的策略策略政府政府的策略的策略寻找工作寻找工作游荡游荡救济救济3，2-1，3不救济不救济-1，10，0五纳什均衡的存在性与多重性混合战略纳什均衡纯战略纳什均衡重复剔除占优均衡占优均衡不同均衡概念之间的关系纳什均衡的存在性每个有限战略式博弈（参与人与战略数目均为有限）都有纳什均衡存在，这均衡有可能是混合战略均衡纳什均衡的多重性纳什均衡不唯一，如性别战案例性别战1，30，0足球0，02，1时装足球时装妻子支付 p 1-pq1-q丈夫性别战：混合策略均衡给定妻子分别以给定妻子分别以q,1-q的概率选择时装、足球，的概率选择时装、足球，则丈夫选择时装、足球的期望收益相等，即则丈夫选择时装、足球的期望收益相等，即1.q+0.(1-q)=0.q+3.(1-q)，解得妻子选择时解得妻子选择时装、足球的概率分别为（装、足球的概率分别为（3/4，1/4）给定丈夫分别以给定丈夫分别以p,1-p的概率选择时装、足球，的概率选择时装、足球，则妻子选择时装、足球的期望收益相等，即则妻子选择时装、足球的期望收益相等，即2.p+0.(1-p)=0.p+1.(1-p)，解得妻子选择时解得妻子选择时装、足球的概率分别为（装、足球的概率分别为（1/3，2/3）当妻子以（当妻子以（3/4，1/4）的概率分布随机选择时）的概率分布随机选择时装表演和足球，丈夫以（装表演和足球，丈夫以（1/3，2/3）的概率随）的概率随机选择时装表演和足球时，双方都无法通过单机选择时装表演和足球时，双方都无法通过单独改变策略，即单独改变随机选择纯策略的概独改变策略，即单独改变随机选择纯策略的概率分布而提高利益，因此双方的上述概率分布率分布而提高利益，因此双方的上述概率分布的组合构成一个混合策略纳什均衡。的组合构成一个混合策略纳什均衡。该混合策略纳什均衡给妻子和丈夫各自带来的该混合策略纳什均衡给妻子和丈夫各自带来的期望收益分别为：期望收益分别为：q.p.2+q.(1-p).0+(1-q).p.0+(1-q).(1-p).1=2/3;q.p.1+q.(1-p).0+(1-q).p.0+(1-q).(1-p).3=3/4双方的期望收益均小于纯策略时的期望收益。双方的期望收益均小于纯策略时的期望收益。性别战：混合策略均衡6、最大的骄傲于最大的自卑都表示心灵的最软弱无力。、最大的骄傲于最大的自卑都表示心灵的最软弱无力。斯宾诺莎斯宾诺莎7、自知之明是最难得的知识。、自知之明是最难得的知识。西班牙西班牙8、勇气通往天堂，怯懦通往地狱。、勇气通往天堂，怯懦通往地狱。塞内加塞内加9、有时候读书是一种巧妙地避开思考的方法。、有时候读书是一种巧妙地避开思考的方法。赫尔普斯赫尔普斯10、阅读一切好书如同和过去最杰出的人谈话。、阅读一切好书如同和过去最杰出的人谈话。笛卡儿笛卡儿 Thank you拯畏怖汾关炉烹霉躲渠早膘岸缅兰辆坐蔬光膊列板哮瞥疹傻俘源拯割宜跟三叉神经痛-治疗三叉神经痛-治疗

展开阅读全文

第五讲-博弈论教学课件

最新文档