博弈论与信息经济学20120928 (2)

资源描述

对局理论与信息经济学Game theory and information economics张汉江湖南大学经济与贸易学院13507435519Zhanghj5191 对局理论导论1.1 对局及其解博弈论，又称对策论，对局理论，对应的英文为game theory，是研究对局的一种数学理论。即研究在对抗的情况下，如何获得最优策略的一种数学方法，也可以说是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题的。即当一个主体，如一个人或者一个企业的选择受到其他人、其他企业的影响，而且反过来影响到其他人、其他企业选择时的决策问题和均衡问题。人们之间决策行为的相互影响的例子很多，如寡头市场上，企业选择他们的价格和产量；国与国之间的关系；战争双方的战法选择等等。可见，对局理论的应用相当的广泛。Jean Tirole：对局理论广泛而深入地改变了经济学家的思维方式。管理研究与经济学分析的关系。本课程非数学课，只是介绍对局理论在经济学分析中的应用而已。什么是对局呢？当多个决策主体的行为发生直接相互作用的时候，就构成了对局。例如“囚徒困境”，“剪刀石头布”，等等。非合作策略对局（GAME）的基本特性：每一个局中人独立地进行信息获取，独立地进行价值判断，独立地进行决策，每个人的决策的后果不仅取决于自己的决策而且取决于参与对局的所有人的决策。合作对局中有一部分局中人之间有一起行动的强制性协议。囚徒两难问题：两个囚犯在警察的询问下和法庭的审判中，应该选择认罪还是选择拒绝认罪（坦白从宽，牢底坐穿；抗拒从严，回家过年）。在“囚徒困境”对局中，每个囚犯有两种策略/行动选择：坦白或抵赖。其支付表（payoff table）为：囚犯坦白T2 抵赖D2囚犯坦白T1 -8，-8 0，-10 抵赖D1 -10，0 -1，-1对于囚犯来说(对称地也可以适用于描述囚犯)，当囚犯选择坦白时，如果他抵赖，则支付为-10；如果他坦白，则支付为-8，当囚犯选择抵赖时，如果他也抵赖，则其支付为-1；如果他坦白，则支付为0。其策略式描述的主体内容为：Outcome1(T1,T2)=-8 Outcome2(T1,T2)=-8Outcome1(T1,D2)=0 Outcome2(T1,D2)=-10Outcome1(D1,T2)=-10 Outcome2(D1,T2)=0Outcome1(D1,D2)=-1 Outcome2(D1,D2)=-1可见支付表的简洁明了！支付表这种形式主要用于描述有限个局中人所有人只有有限个策略的情形。请大家自行考虑三人以上的对局如何用支付表描述。对局的解又如何定义、如何求解呢？在一般的管理研究中，面对的一个决策者，只需要求出其目标函数极大化的方案即可(学过运筹学、决策分析理论、管理科学等的就很容易理解这一点)。但是现在不同了！现在有多个决策者，一人最优不是优，百花齐放春满园。自然地想到大家（对局所有参与者）都同时实现目标函数极大化的情形。如果存在这样的情形，那就是该对局的解。回到“囚徒困境”，假设两个“囚徒”都是理性的，即均追求自己效用的极大化。对于“囚徒1”来说，当“囚徒2”坦白时的最优决策是坦白，当“囚徒2”抵赖时最优策略仍然是坦白。即不论“囚徒2”的决策是什么，抵赖都是自己的劣战略，坦白才是自己的占优策略：坦白均优于抵赖。同理可得，坦白也是“囚徒2”的占优策略，抵赖是其劣战略。由此得到双方同时选择自己的占优策略，即（坦白，坦白）构成了该对局的一个解，即占优策略均衡。你也在可以在以后验证这也是纳什均衡。后者的空间大于前者。这就是由于双方作为理性个体的对局结果。从个人理性来看显然选择坦白是较优的。从集体理性来看则是选择同时抵赖是最优的。法官。扩展刚才的过程，其中最重要的关键步骤是剔除了局中人的劣战略，当局中人有多个战略时，如果能够不断地剔除其劣战略，即相对于其他战略结局都不好的战略，这种剔除过程在局中人之间逐一不断交互地进行，直到最后成为某一个局中人的决策问题，即不再构成对局，此时所有局中人最后形成的最优策略组合就是所谓的“重复剔除劣战略的对局均衡”。很显然，占优策略均衡是一种重复剔除劣战略的对局均衡，反过来则不一定。现实情况是，能够求得上述两种均衡的对局太少了！有必要寻求更为广泛的对局解！纳什的贡献就是为人类文明贡献了纳什均衡这样一种对局的解！他个人为此付出了惨痛的代价，请观看电影“The Beautiful Mind”。1.2对局理论的基本概念及其表示方式对局理论的基本概念包括参与人、行动、信息、策略、效用、结果和均衡，其中，参与人、策略、效用是描述一个对局所需要的最少的要素，而行动和信息是其“积木”。参与人的行动和结果通称为“对局规则”。对局分析的目的是使用对局规则预测均衡。l 参与人: 对局参与者，通过选择行动，使自己的效用极大化。参与人可以是个人，也可以是团体，如企业、国家等。除一般意义上的参与人之外，为了分析的方便，将“自然”作为“虚拟参与人”来处理，用于描述对局中的客观不确定性。“自然”是指决定外生的随机变量的概率分布的机制。l 行动: 参与人在对局的某个时点的决策变量。在n人对局中，n个人的行动的有序集a=(a1，.，ai，.，an)称为“行动组合”，其中的第i个元素ai是第i个参与人的行动。与行动有关的一个重要问题是行动的顺序问题，它对于对局的结果非常重要的。事实上，静态对局和动态对局的区分就在于行动的顺序。在对局理论中，一般假定参与人的行动空间和行动顺序是所有参与人的共同知识，共同知识是这样一种信息，每一个局中人都知道，且都知道大家也都知道，而且也知道大家都知道自己不仅自己知道，而且知道自己知道大家都知道，如此循环无尽。l 信息: 参与人有关对局的知识，特别是有关“自然”的选择其他参与人的特征和行动的知识。“信息集”是对局理论中描述参与人信息特征的基本概念。我们要注意区分的是“完美信息”和“完全信息”这两个既相联系，又完全不同的概念。“完美信息”（perfect information）是指一个参与人对其他参与人（包括虚拟的参与人“自然”）的行动选择有准确的了解，即一个信息集只包括一个值；“完全信息”是指自然不首先行动或自然的初始行动被所有参与人准确观察到的情况，即没有事前的不确定性。不完全信息意味着不完美信息，但反过来却不成立。l 策略: 参与人在给定信息集的情况下的行动规则，它规定参与人在什么时候选择什么行动。一般的，我们用si表示第 i个参与人的一个特定的策略，Si= si ，i=1，2.，n，表示第i个参与人的策略集合。M个参与人每人在自己的策略组合中选择一个策略，那么m维向量s=(s1，.， sI，.，sm)成为该对局的一个策略组合。应该注意的是，策略和行动是两个不同的概念：策略是行动的规则而不是行动本身。（如“人不犯我，我不犯人，人若犯我，我必犯人”）在静态对局时，策略退化为行动。所以一般地使用策略来泛指策略和行动。l 支付: 指在一个特定的策略组合下，参与人确定的效用水平或指参与人得到的期望效用水平。l 结果: 是对局分析者所感兴趣的所有东西，如均衡策略组合均衡行动组合均衡支付组合等。l 均衡: 所有参与人都最优的一种策略组合。通常记为： s*=(s1*，.， si*，.， sn*)，其中，si*是第 i个参与人在均衡情况下的最优策略，它是参与人i 的所有可能的策略中使其效用极大化的策略。对局可以用两种不同的方式表示，一种称为策略式表述，适合于静态对局；一种称为扩展式表述，更适合于动态对局。策略式表述又称为标准式表述，其给出了：1、对局的参与人集合：，=（1，.，i，.，n）；2、每个参与人的策略空间：sijSi，i,jM；3、每个参与人的效用函数：ui(s1，.， si，.， sn)， i,其中(s1，.， si，.， sn)是每一个局中人在自己的策略空间里选取一个策略构成的一个策略组合；参见“囚徒困境”中例子。我们用G= S1，.， Sn；u1，.，un 代表策略式表述对局。扩展式表述包括以下要素：1、参与人集合：=（1，.，i，.，n，N），其中，N表示虚拟参与人“自然”；2、参与人的行动顺序：谁什么时候开始行动；3、参与人的行动空间：每次行动时，参与人有哪些选择；4、参与人的信息集：每次行动时，参与人知道些什么；5、参与人的效用函数：行动结束后，参与人得到些什么；6、外部事件（即自然的选择）的概率分布；扩展式表述所“扩展”的主要是参与人的策略空间。与策略式表述相比，策略式简单的给出了参与人有些什么策略可以选择，而扩展式表述给出每个策略的动态描述：谁在什么时候行动，每次行动时有些什么具体的行动可供选择，以及知道些什么，也就是说，扩展式表述中，策略对应于参与人的相机行动规则。1.3纳什均衡纳什均衡是对局理论的解的基本概念，是在完全信息静态对局下给出的。假设有n 个参与人参与对局，我们用G= S1，.， Sn；u1，.，un 表示。那么，如果存在一个策略组合s*=(s1*，.，，.， sn*)，使得对于每一个i， si*是给定其他参与人的选择s-i*=( s1*，.， si-1* ， si+1*，.， sn*)情况下，第i个参与人的最优策略，即: ui(si*， s-i*)ui(si， s-i*)， si Si，i1，2，.，n或者，可以用另一种方式表达: si* ui(si， s-i*)那么，我们就称该策略组合为纳什均衡。请采用纳什均衡的定义验证（坦白，坦白）“囚徒困境”对局的纳什均衡。纳什均衡有强弱之分，前面定义描述的是弱纳什均衡，如果不等式严格成立，则称之为强纳什均衡。纳什均衡的哲学意义，即如何认识和理解纳什均衡。常规的理解是对局参与人之间达到的一种僵局，所有局中人都不可能透过打破该僵局而获取到更高的收益，即没有参与人有兴趣改变自己的策略，也就是每一个局中人都没有单方面改进的可能，否则他将不能达到自己效用的极大化。我个人更愿意理解为是一种互为最优的局势，即在假设其他局中人选取了最优策略时，寻求到我自己的最优策略。这种理解，不仅仅在认识论上具有意义，而且具有实践上重大意义，即可以用于验证和求解纳什均衡。1.4 对局的基本类型对局可以从两个角度划分：第一个角度是参与人的行动顺序划分，对局可以分为静态对局和动态对局两种。所谓静态是指对局参与人同时选择行动，或者虽然不是同时选择行动，但后者对于前者的行动选择没有任何信息；动态对局是指对局参与人的行动有先有后，并且后行动者能够观察到前者所选择的行动。第二个角度是对局参与人对于其他参与人的特征、策略空间以及效用函数的知识，从这个角度，对局可以分为完全信息和不完全信息两种。所谓完全信息是指每个参与人对其他所有对局参与人的特征、策略空间以及效用函数有准确的知识；否则，就是不完全信息对局。结合以上两种不同的划分角度，我们就能得到四种类型的对局：完全信息静态对局、不完全信息静态对局、完全信息动态对局、不完全信息动态对局。下面分别予以介绍。静态动态完全信息纳什均衡；纳什（1950，1951）子对局精炼纳什均衡；塞尔滕（1965）不完全信息贝叶斯纳什均衡；海萨尼（1967-1968）精炼贝叶斯纳什均衡；塞尔滕（1975）克瑞普斯和维尔逊（1982）范登伯格和泰罗（1991）1.5对局理论的发展的简单回顾对局理论一般认为始于1944年由Von Neumann和Morgenstern合作的对局理论和经济行为（The Theory of Games and Economic Behaviour）一书。对局理论可以划分为合作对局（cooperative game）和非合作对局（non- cooperative game）。现在经济学家谈到的对局理论，多数指非合作对局。合作对局和非合作对局的区别主要在于人们之间的行为相互作用时，能否达成一个具有约束力的协议（binding agreement）。如果有，就是合作对局，否则为非合作对局。同时，合作对局强调的是团体的理性（collective rationality），强调效率、公正、公平；非合作对局强调的是个人理性、个人最优决策，其结果可能是有效率的，也可能是无效率的。合作对局在50年代达到顶峰，包括纳什（1950）和夏普里（Shepley，1953）的讨价还价（Bargenning）模型，Gillies and Shepley(1953)关于合作对局的核（Core）的概念等。而非合作对局在此时开始创立。纳什在1950年和1951年发表了两篇关于非合作对局的重要文章，提出了“纳什均衡”的概念；Tucker于1950年定义了“囚徒困境”。他们的著作奠定了现代非合作对局理论的基础。60年代，泽尔滕（Selten）将纳什均衡的概念引入了动态分析，提出了“精炼纳什均衡”的概念。海萨尼(Haisayii)则把不完全信息引入了对局理论的研究。对局理论在最近一二十年间，成为了主流经济学的一部分。70年代以前，经济学家也有一部分用到对局理论，但这些对局理论知识大体在1953年之前就已经被创造出来了。70年代中期以后，经济学家转而强调个人理性，特别是强调对个人的最基础的效用函数的研究之后，信息问题成为他们关注的焦点。同时，在研究个人行为时，个人决策有一个时间顺序，即当一个人做出某项决策时，必须对在他之前的别人的决策有一个了解，也就是说，他的决策受他之前的人的决策的影响；同时，他的决策也影响他之后的人的决策。信息问题和时序问题在经济学中变得非常重要。而对局理论在这一阶段恰好为这两个问题的研究提供了有力的工具。70年代后期和80年代，对局理论在经济学中的地位日益重要，可以说它成为了微观经济学的基础，它“几乎吞没了整个微观经济学”（Eric Rrasmusen，1981）。对局理论与信息经济学（非对称信息对局理论）的主要成就：1990年美国克拉克奖（Clark Medal），克瑞普斯诺贝尔经济学奖1994年约翰福布斯纳什（John F. Nash Jr.）美国人 (1928- ) 约翰海萨尼（John C. Harsanyi）美国人 (1920- ) 莱因哈德泽尔腾（Reinhard Selten）德国人( 1930- ) 这三位数学家在非合作对局的均衡分析理论方面做出了开创性德贡献，对对局理论和经济学产生了重大影响。 1996年詹姆斯莫里斯（James A. Mirrlees）英国人(1936- ) 威廉维克瑞（William Vickrey）美国人 (1914-1996) 前者在信息经济学理论领域做出了重大贡献，尤其是不对称信息条件下的经济激励理论。后者在信息经济学、激励理论、对局理论等方面都做出了重大贡献。 2001年乔治阿克尔洛夫（George A. Akerlof）美国人（1940- ），美国加州大学伯克莱分校教授迈克尔斯宾塞（A. Michael Spence）美国人（1943- ），美国加州斯坦福大学教授约瑟夫斯蒂格利茨（Joseph E. Stiglitz）美国人（1943- ），美国纽约哥伦比亚大学教授为不对称信息市场的一般理论奠定了基石。他们的理论迅速得到了应用，从传统的农业市场到现代的金融市场。他们的贡献来自于现代信息经济学的核心部分。2005年托马斯克罗姆比谢林 (Thomas Crombie Schelling)，1921年生于美国。哈佛大学博士。现任马里兰大学教授。2008年夏天到湖南大学演讲（张强副校长）。罗伯特约翰奥曼(Robert John Aumann)，1930年生于德国。麻省理工学院博士。耶路撒冷希伯来大学教授。通过对局理论分析促进了对冲突与合作的理解。2007年埃里克马斯金(Eric S. Maskin)，1950年出生于美国纽约。1976年获得哈佛大学应用数学博士学位。1985至2000年任哈佛大学经济系教授。2003年出任世界计量经济学会会长，普林斯顿高等研究院社会科学部主任。在现代经济学最为基础的领域里做出了卓越的贡献，其中包括公共选择理论、对局理论、激励理论与信息理论以及机制设计。被誉当今国际经济学最受尊敬的经济学大师。罗杰迈尔森(Roger B. Myerson)，1951年3月29日生于美国波士顿，美国国籍。1976年获得哈佛大学应用数学博士学位，其博士课题为“一种合作对局理论（A Theory of Cooperative Games）”，对对局理论有深入的研究。著有对局理论：矛盾冲突分析（Game Theory: Analysis of Conflict）及经济决策的概率模型（Probability Models for Economic Decisions）。里奥尼德赫维克兹(Leonid Hurwicz) 犹太人，1917年出生于波兰，第二次世界大战中来到美国。美国科学院院士，美国经济学会院士，总统奖获得者，明尼苏达大学校董事会讲座教授。开始时兴趣主要是计量经济学，对动态计量模型的识别问题作出了奠基性的工作。1947年首先提出并定义了宏观经济学中的理性预期概念。其主要研究领域包括机制和机构设计以及数理经济学。最重要的研究工作是开创了经济机制设计理论。他曾于1990年由于“对现代分散分配机制的先锋性研究”获得美国国家科学奖。 2009年，威廉姆森2完全信息静态对局完全信息静态对局是一种最简单的对局，由于对局参与人不知道其他参与人的行动，所以在这种对局中，参与人的策略和行动是一致的，也就是一回事。完全信息静态对局的对局解就是我们前面介绍的纳什均衡。一种制度安排必须是一个纳什均衡，才能发生效力。2.1有限策略对局智猪对局Boxed pigs：按钮成本2单位，猪槽10单位大猪先到，吃9单位，小猪1单位小猪先到，吃4单位，大猪6单位两猪同时到，大猪吃6单位，小猪4单位小猪占优策略按钮等待大猪按钮5，14，4等待9，-10，0纳什均衡：（小猪等待，大猪按钮）-多劳者不多得你认为应该如何处理这个问题？提示：猪槽大小，猪的运动速度，挨饿对猪的效用，按钮到猪槽的距离。Entry deterrence in industrial organization假定：进入之前垄断利润300，进入之后寡头利润100（各得50），进入成本10上位者默许斗争进入者进入40，50-10，0不进入0，3000，300 (Nash E)姐妹俩选课对局苏珊经济学史对策论琳达经济学史 8，9 8，7 对策论 9，9 9，8专业化分工斗鸡（鹰鸽）对局（怀化有养鸡者，给鸡戴眼镜）斗鸡1战斗和平斗鸡2 战斗 -1，-1 2，0 和平 0，2 0，0生物学中的进化稳定策略（ESS）考虑有一群鸡，其中有纯粹的鹰派，也有纯粹的鸽派，也有混合派，即时鹰时鸽，亦鹰亦鸽的机会主义者。鸡群中鹰鸽派的比例，或机会主义者选择强硬和和平策略的概率。大家还有什么问题？有没有上帝？如果没有，我们需要不需要？如果有，他老人家是从哪里来的?纳什对局在电影beautiful mand 中，纳什有好友威廉姆和杰克同时想追求美女。假定有金发美女一人，黑发美女多人。支付表为威廉姆追求金发美女追求黑发美女杰克追求金发美女 0，0 2，1 追求黑发美女 1，2 1，1纳什建议好友都去追求黑发美女。这个对局的纳什均衡是纳什的建议吗？他们可以先划拳决定哪一个先行动，在付出一点小代价之后，得到更好的结果。更为重要的是美女们的决策也应该纳入这个对局中，而不是仅仅作为外生的参数。美女们每一个都需要有男人追求，是一个足够还是韩信点兵？男人追求女人的效用包括哪些？女人决定接受男人的追求时考虑一些什么因素?由于效用是多维的，所以一定不能全部得到，必然有取有弃，取舍的标准是怎么样的？狮群中为什么只有一头雄狮？这是进化的结果。人类决定一夫一妻制，是怎么决定的?多重纳什均衡2.2无限策略对局2.2.1库诺特(Cournot，1938)寡头竞争模型在某一个市场上有N个企业进行寡头垄断竞争，其单位生产成本分别为ci，i=1，2，N.N个企业同时进行独立的生产产量qi决策，决策的目标是自己的利润极大化。假定其中ci为共同知识（共同知识是指对局中所有参与人都知道的信息），为简便计，进一步假定市场逆需求函数p=a-qi.（请注意：以上是共同知识！）Maxui=i=qi(a-qi-q-i-ci)qi对企业i的利润求偏导数，并令其等于零，得到qi*=（a-q-i-ci）/2，i=1，2，N.即企业i的最优产量是其他企业产量的函数，亦即局中人i的最优策略是其他局中人的策略的函数，称之为企业i的对于其他其他企业的产量的反应函数。如果该对局存在纳什均衡，则上述N个等式存在联立解，即qi*=（a-q-i*- ci）/2，i=1，2，N.2 qi*=（a-q-i*-ci），i=1，2，N.（2）-（1）：2（q2*- q1*）= c1 - c2+ q2*- q1*即：q2*- q1*= c1 - c2相应地（i+1）-（i），i=2，3，N-1有qi+1*- qi*= ci - ci+1将上述N-1个等式相加，得qN*- q1*= c1 - cN考虑到一般性，有qi*=q1*+ c1 - ci 从i=2加到i=N，有q-1*=qi*=(N-1)（q1*+ c1）-ci + c1代入q1*的表达式2 q1*=（a-q-1*-c1）=a-(N-1)（q1*+ c1）-2 c1+ci (N+1) q1*=a-(N-1) c1-2 c1+ci q1*=a/(N+1) -(N+1) c1/(N+1) +ci=a/(N+1) -c1 +ci=(a +ci)/(N+1) -c1qi*= (a +ci)/(N+1) -c1+ c1 - ci=(a +ci)/(N+1) -cii*=(a +ci)/(N+1) -ci)2假定该产业内诸企业的单位生产成本相等，即ci=c，有qi*=（a-q-i-c）/2，i=1，2，N.如果该对局存在纳什均衡，则上述N个等式存在联立解，即qi*=（a-q-i*-c）/2，i=1，2，N.由于各个企业都是一样的，所以存在对称性，即q-i*=（N-1）qi*将其代入反应函数组，得qi*=（a-（N-1）qi*-c）/2qi*=（a-c）/（N+1）均衡利润为i*=（a-c）2/（N+1）2当N趋于无限大是，即该产业内的企业个数充分多时，各个企业的利润趋于零。库诺特均衡存在的理由。纳什均衡作为学习和进化的结果。后面有动态调整的过程和结果。即斯塔克伯格对局。重要的是库诺特与斯塔克伯格是谁决定的？2.22伯川德价格策略对局Bertrands price game（Bertrand，1883）2.2.2.1伯川德悖论两个企业生产同样的非差别化的产品，在消费者看来，其效用是完全相同的，完全可以互相替代。这样，消费者会从要价最低的供应商处购买。当两个厂商要价相等时，我们假定各自占有一半的市场或一半的市场机会。假设两个厂商都具有充分的生产能力，单位生产成本为c。则有，厂商的利润是：其中为厂商i的需求。最优决策=两个企业都在合理的推测对方最优要价的情况下确定自己的最优要价。如果该对局存在纳什均衡，使厂商的利润极大化，该价格上的均衡也被称为伯川德均衡，对于所有的厂商，和所有的价格来说，有和伯川德（1883）提出了伯川德悖论（Bertrand Paradox）：上述对局的伯川德均衡是，并且得到了下列推论：（1）企业按照自己的边际成本定价；（2）企业都没有利润。我们采用反证法来证明。假设，则可能有和两种情形。在的情形，企业将获得整个市场，企业的利润为零，这不是企业的最优价格决策，因为这可以取，（为任意小的一个正数，下同），而获得整个市场。在的情形，企业的利润是与企业均分整个市场，但只要它将价格调整为，它就可以独占整个市场且有一个正的赢利。所以，两个企业都只会选择价格，因为如果，则企业可以稍微提高其价格，仍然独占市场且获得正盈利。2.22.2解决伯川德悖论的思路埃奇沃思（1897）从生产能力的约束来试图解开伯川德悖论。从而提出配给问题。（银行信贷配给问题）考虑到对局的时间维度（和重复对局）引入产品的差异化2.2.2.3差异化产品的伯川德对局两个厂商生产的是具有很强的替代性的同类产品，其需求函数为其中，为厂商1，2的价格决策，为两个厂商产品之间的替代系数。上述支付函数分别对求偏导数并令偏导数为零，可以求得两个厂商分别对对方价格策略的反应函数为如果该对局存在纳什均衡，则必然是上述两个反应函数的交点，即必然满足：解得2.2.3豪特林空间价格竞争对局（Hotelling，1929）假定在一个长度为1的线性城市里，消费者均匀地分布在0，1区间里。在城市的两端分别开设有两家商店，两家均出售完全同质的产品，单位成本为c，产品的差异化表现在消费者购买商品时的物流成本上，假设消费者购买商品的物流成本与他和商店之间的路程成正比，单位路程的物流成本为t。对住在x的消费者来说，商店1的商品的物流成本为tx，商店2的商品的物流成本为，所有消费者均购买一个单位的商品。两个商店的价格策略是，则其利润为其中是两个商店的市场需求，这里假定住在x的消费者对两端商店的商品的采购成本无差异。则有将市场需求2.2.4公共地的悲剧（Tragedy of the commons）（Hardin，1968）N户牧民在一块没有界定产权的草原上放牧。设每只羊羔的购买成本为c=4，春季收获时每只羊的价值是v(G)是养羊总数G的单调减函数。每户牧民的决策是养多少只羊，gi，i=1，2，n.每户牧民的决策gi的效用函数为ui(gi)= gi (v(G)-c) =gi (v(gi )-c)设v(gi )=100-gi，假定n=3.gi *=24，i=1，2，3，ui* (gi*)=576，收益总和为1728；gi=72集中决策时，O*=48，收益为23042.3混合策略及混合策略NASH均衡从一个简单的剪刀、石头、布的两人游戏开始，支付表格可表示如下：游戏者2剪刀石头布游戏者1剪刀0，0-1，11，-1石头1，-10，0-1，1布-1，11，-10，0显然如果你出剪刀则我出石头。你出石头我出布。双方的最优策略会因为对方的策略而发生变化，不存在一个纯策略NASH均衡，或说该对局没有均衡解。当然这些只是一种理论上的分析，现实中的对手会根据对方策略而调整，不存在一组双方都达到最优的情况。一个公共知识：由于双方都不能确定自己究竟是该采取哪个策略，因此也完全不知道对方该采取哪个策略。贝叶斯假设：同等无知的情况下假设为等概率分布。即假设对方等概率地选择任何一个策略，结果是自己也是等概率地选择一个策略为自己的最优策略。结果是自己选取任何一个策略的时候，收益的数学期望是相等的。从而自己的最优选择是等概率的取一个策略，即对方以（1/3，1/3，1/3）的概率取策略空间中的各个策略，则自己也相应的模仿这一方法。从而双方似乎在策略上没有对方同时最优的策略对，但在选取策略的概率上存在使双方支付数学期望最优的概率组合。2.3.1混合策略及其纳什均衡的定义这种从策略空间上的选取一个策略的概率向量，由于混合了两个以上的策略，因此称为混合策略。而相应的，双方所达到的最优混合策略称为混合策略的NASH均衡。反之，如果只有一个选择，称为纯策略均衡。定义：有N个人构成的对局，有G=S1，S2，S3，u1，u2，u3中，如果有第i个人有一个Mi是纯策略，有Si=Si1，Simi，称为概率向量，为第i个人的一个混合策略，其中是i选择Sij时候的概率，对于所有的j=1，2，3，Mi，01 ，= 1.与纯策略的情况不同，局中人选择混合策略时候关心的是对方也选择混合策略时自己选取其中一个混合策略的支付数学期望，这里假定局中人都是“期望”的动物，如果他还要考虑到风险，就是一个计算综合效用的人，问题会相对复杂些。这个局中人用效用可写为如下形式： =定义：在对局集合G=S1，S2，S3，u1，u2，u3中，混合策略组合的最优形式是一个NASH均衡，如果对所有的i=1，2，3，n，都有，对于任意的集合都成立。即给定其他所有人的最优混合策略后，局中人i存在一个使自己的支付的数学期望极大化的混合策略。2.3.2 小偷和守卫的监守对局从一个真实的故事讲起。某城市正在申请全国文明城市称号，该市某电视台报道了出租车宰客事件（本人亦有幸被宰过）。录下了的哥载客的录像，交到了该市公用事业局出租车管理科，科长张三十分气愤，拍案而起：“太不像话了！出租车公司管理太差，我马上打电话给他们公司，要求他们严肃处理。”请你预测这事的后续进程。另一个非典型案例。某大国国家领导人在重大公共场合慷概激昂：“不管前方是地雷阵，还是万丈深渊，我也会旗帜鲜明地反对腐败，义无反顾。”请看今天该国的腐败现象有所好转么？再假设另一个场景。记者将的哥载客录像交到出租车管理科，见到科长李四。李四说：“请记者放心，我们局里做了规定，凡是再有人来投诉，我立即下岗去扫厕所。你在门口看到前科长张三了么？他已经被从公务员队伍中除名，去当保安看大门去了。”试问你对该市的出租车载客现象的好转有一些信心了么？再看那个非典型案例。如果该领导人平心静气地告诉记者：“古语云：当官不为民做主，不如回家卖红薯。中央政府有规定，如果我在任期间，腐败现象依然故我，我将不得不引咎辞职。回湖南广益中学补原来落下的课。请各位朋友监督。”试问该国的腐败分子还敢那么猖獗，肆无忌惮么？该对局的支付表格如表所示。如果小偷去偷碰上守卫巡逻，则被抓获并被获的惩罚，反之如果碰上守卫呼呼大睡，则偷得价值为的财物，而守卫因失职而遭到的惩罚。相反如果小偷不去偷则当守卫睡觉时可获的睡觉收益，不睡则双方均无收益。守卫巡逻 q 睡觉 1-q小偷偷 p-c， 0 v， -D不偷 1-p0， 0 0， s显然，该对局不存在纯策略纳什均衡。我们来研究双方的混合策略，其中为小偷偷的概率，为不偷的概率，为守卫巡逻的概率，为守卫睡觉的概率。小偷选择混合策略的期望收益为: (1-c)为-c其最优的一阶条件为，: (p为q)即当守卫巡逻的概率等于时，小偷的任何混合策略都是最优的。守卫选择混合策略的期望收益为，其最优化的一阶条件为，即当小偷来偷的概率为时，守卫的任何混合策略都是最优的。结合两方面的结果，双方最优的混合策略。值得指出的是，小偷的最优偷窃的概率与偷盗目标的价值和被抓获的惩罚无关，只与守卫睡觉的效益以及因睡觉失职招致财物损失而受到的惩罚有关，守卫睡觉的收益越大，小偷偷的概率越大，守卫失职的代价越大，小偷偷的概率越小。同样，守卫的最优巡逻概率也不与自己的有关信息有关，而是与小偷偷盗目标的价值和失手被抓的代价有关，财物价值越大，巡逻的概率越大，小偷失手被擒的代价越大，守卫巡逻的概率越小。这就是所谓的监督对局的悖论。类似的有税收稽查对局纳税人逃税不逃税税收机关检查a-c+F，-a-Fa-c，-a不检查0，0+a，-aa应纳税款c检查成本F罚款(p*，q*)-（检查概率，逃税概率）2.3.3，性别之战：战斗，战役，战争一对恩爱而民主的男女同时得到了两张时装表演门票和两张足球比赛门票。由于性别差异，男女对观看时装表演和观看足球比赛具有不同的效用函数，即有如表所示的支付表格。女girl时装Pg(C)足球Pg(F) 男Boy时装Pb(C)1，20，0足球Pb(F)0，02+y，1 女方看时装的效用为2，大于男方看时装表演的效用；男方看足球比赛的效用为2+y, y 0，大于女方看足球比赛的效用。两人由于恩爱当意见不一致时，宁可放弃也不单独行动。民主体现在两人集体决策时候的权利完全相等，即一人一票，以意见一致选择共同的行动。容易得到该对局具有两个NASH均衡时装，时装和足球，足球。即双方的最优策略是在对方选择时装/足球时，作同样的选择时装/足球。这个问题的多NASH均衡，似乎是该完全信息静态对局的解，但实际上对问题的解决于事无补，丝毫没有帮助，两人仍如绿头苍蝇一样，不知具体该怎么办。我们在这里看到，与没有NASH均衡的完全信息静态对局一样，存在多个NASH均衡的该类对局仍然需要混合策略来帮助我们求解其解决问题之道。按照混合策略NASH均衡的定义，男方女方选择，的情况下，选择混合策略，的支付的数学期望为：= -31-令，可得出=31-，。即当女方以（3/4，1/4）的概率选择（时装表演，足球比赛）时，男方任何的混合策略都是最优的。同样的女方混合策略的支付的数学期望为：可以求出当男方以（1/3，2/3）的概率选择（时装表演，足球比赛）时，女方任何的混合策略都是最优的。既然如此，将两方面的结论结合起来，可以得到双方同时最优的混合策略NASH均衡（，），（，）。此时，双方的最优的期望支付为：和=这里再次看到个体理性和集体理性的不一致，集体理性是双方选择合作，即同时抵赖，优于纳什均衡的双方同时坦白。任何一方只要放弃个体利益而选择集体利益，将至少得到1的收益，大于混合策略纳什均衡下的或的期望收益，而另一方将得到2或3 的收益。与个体理性相比较，集体理性不仅使双方的支付总和更大，甚至每个个体的支付也更大。也可以说，这种民主的制度安排比任何一种共同行动的安排在数学期望的意义上都差，双方都为各自可能的最大利益（2或3 ）采取了在数学期望的意义上是损人不利己的行动。同时可以得到该对局的混合策略的反应对应。双方的反应对应由三个交点：（0，0），（1，1）和（1/3，3/4）。前两个对应两个纯策略纳什均衡，双方同时选择时装/足球，后者对应一个混合策略纳什均衡。 0 图：性别战争中双方的反应对应性别战争对局带给我们的另一个启示是双方做出选择的时机。由于存在两个分别对应着某一方利益极大化同时双方利益总和极大化的纳什均衡，双方都会努力争取该均衡的实现。具体方法是抢先表态，因为一旦对方看到自己的选择后，将不得不尾随其后做出相同的选择。即男女中的任何一方都清醒地认识到对方会选择与自己相同的选择，于是会在有机会先选择时首先选择使自己利益极大化的选择，这就是我们下一章将要讨论的完全信息动态对局。3 完全信息动态对局完全信息动态对局的扩展式表述，可以用对局树来表示。对局树给出了一个有限对局的所有信息。对局树的基本要素有结、枝和信息集。结：包括决策结和终点结。决策结是对局参与人采取行动的时点，终点结是对局行动路径的终点。枝：枝是从一个决策结到它的直接后续结的连线，一个枝代表参与人的一个行动选择。信息集：这是一个比较重要的概念。对局树上所有的决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集，该子集包含所有满足下列条件的决策结：（1）每一个决策结都是同一个参与人的决策结；（2）该参与人知道对局进入该集合的某个决策结，但不知道自己究竟处于哪一个决策结。3.1 子对局精炼纳什均衡完全信息动态对局的解我们称之为子对局精炼纳什均衡，它是泽尔腾（Selten）对纳什均衡所作的重要改进。所谓子对局，它是原对局的一部分，可以作为一个独立的对局进行分析。子对局纳什均衡的定义如下：如果策略组合s*=(s1*，.，，.， sn*)满足：（1）它是原对局的纳什均衡；（2）它在每一个子对局上给出纳什均衡；那么，我们就称之为子对局精炼纳什均衡。子对局纳什均衡区分了动态对局中的“合理纳什均衡”和“不合理纳什均衡”。子对局精炼纳什均衡可以通过倒推法求解。房地产开发对局开发商B-，开发顺开发反开发-，不开发开发商A开发-3，-3-3，-31，01，0不开发0，10，00，10，0（-，开发）是不可置信的威胁：开发商A选择开发时是最劣策略。同样有不可置信的承诺：公安审案，要胁诉讼3.2上游企业先行定价的线性供应链最优定价策略在以上游企业为主导的供应链中，各个行为主体为了达到自身利润的最大化应该采取的最优定价策略，与一些同类的研究不同的是，我们考虑了各个企业生产或销售产品的单位成本并引入到Stackelberg动态对局模型中，发现企业的单位成本是交叉影响各自的最优价格的，为供应链的信息共享问题引入了一个新的研究对象。我们还发现在1：1：1这样的线性供应链中，拥有实力先定价的一方比参考别人后决定价格一方利润多一倍。得到了实力与风险的价值与信息的价值的一种2的幂次关系。1 一个供应商和一个销售商构成的线性供应链（如图1）供应商S零售商R消费者CPsPs+Pr图1 一个供应商和一个销售商构成的线性供应链（1）模型描述与标注符号我们首先研究只含有一个供应商和一个销售商，并且只销售单一商品的供应链系统，我们称这样的供应链结构为线性供应链。供应链的行动机制为上游企业先行定价，即以供应商为领导者，销售商为从者的供应链最优定价策略问题，很显然，这是一个Stackelberg型动态对局。供应商先行确定商品的批发价，销售商根据供应商的批发价确定商品的零售价，商品按零售价出售，市场以需求函数确定需求量，亦即销售量。假定供应商的供应能力足够大，因而不存在对销售商的缺货；供应商和销售商都是风险中性的。本文所采用的标注符号分别为：R：销售商；Pr：销售商R的零售价；Cr：销售商R的单位成本；Ur表示销售商R的收益。S：供应商；Ps：供应商S的批发价；Cs：供应商S的单位成本；Us表示供应商S的收益。q：商品的需求；假设商品需求函数即需求量q与零售价Pr之间的关系满足D=a-b*pr其中a，b为正的常数。（2）模型求解与结果分析供应商最优定价：销售商最优定价：销售商在给定Ps的前提下，确定获取最大利润的最优价格，即当时Ur最大，因而可以得到在给定批发价Ps时的零售商最优定价，即零售商的相机行动规则：Pr*=a/(2b)+(ps+cr)/2 因为供应商预测到销售商将根据Pr*选择Pr，供应商确定获取最大利润的最优批发价格，即当时Us最大，因而可以得到最优批发价Ps*再将Ps*带入Pr*，可以得到最优零售价Pr*将Pr*和Ps*带入Ur和Us，得到供应商和销售商最大利润为从这个结果可以看到，销售商的最优价格和供应商的最优价格都与市场结构（a，b）有关，且与自己和对方的成本有关。可知供应链信息共享不仅包括需求信息，也包括各自的成本，如何诱导大家如实地表述自己的成本就是我们下一阶段需要重点研究的问题。销售商和供应商的利润相差一倍，且都是与市场结构和两者的成本总和有关。降低其中任何一位的成本，不仅能提高自己的利润，也能提高供应链合作伙伴的利润。先行定价者拥有比后定价者多一倍的利润，使得企业具有做大做强自己，使自己具有在供应链上先行定价的权利和资格，成为追求企业自身利益的非常有效的方式。这一点也在我们实践中得到证实，某服装加工企业的生产利润基本上是自身销售利润的一倍，所以，该企业一位负责人一直强调只要努力保持住自身的出厂价格，而不愿化较多精力在做市场上。在现实中，对于一些品牌经营的企业来说，基本上是自身决定企业产品在市场上的销售价格，同时确定产品对零售商的批发价格，即扣点Ps*/Pr*是供应商与零售商之间讨价还价的焦点。如果供应商主导了这两个价格的制定，可能会影响到零售商开拓市场的积极性，有一个最优激励合同的研究与制定问题。我们留待以后研究。2 一个供应商，一个批发商以及一个零售商构成的线性供应链（如图2）图2 一个供应商，一个批发商以及一个零售商构成的线性供应链（1）模型描述与标注符号我们研究只含有一个供应商、一个批发商和一个零售商，并且只销售单一商品的供应链系统，我们称这样的供应链结构为线性供应链。供应链的行动机制为上游企业先行定价，即以供应商为领导者，批发商为从者，零售商为批发商从者的供应链最优定价策略问题，很显然，这是一个Stackelberg型动态对局。供应商先行确定商品的批发价，批发商根据供应商的批发价确定给零售商的批发价，零售商据批发商的批发价确定商品的零售价，商品按零售价出售，市场以需求函数确定需求量，亦即销售量。假定供应商的供应能力足够大，因而不存在对零售商的缺货；供应商、批发商和零售商都是风险中性的。本文所采用的标注符号分别为：R：零售商；Pr：零售商R的零售价；Cr：零售商R的单位成本；Ur：零售商R的收益。D：批发商；Pd：批发商D的批发价；Cd：批发商D的单位成本；Ud：批发商D的收益。S：供应商； Ps供应商S的批发价； Cs：供应商S的单位成本； Us：，供应商S的收益。q：商品的需求；假设商品需求函数即需求量q与零售价Pr之间的关系满足其中a，b为正的常数。（2）模型分析供应商最大利润：批发商最大利润：销售商最大利润：首先对于零售商，在给定Pd的前提下，零售商为得到最大利润，即当时Ur最大，因而可以得到最优零售价关于Pd的函数：对于批发商，在给定Ps的前提下，批发商为得到最大利润，即当时Ud最大，因而可以得到最优批发商批发价关于Ps的函数：将带入Sr(Pd)，可得因为供应商预测到零售商将根据Sr(Ps)选择Pr，供应商为得到最大利润，即当时Us最大，因而可以得到供应商最优批发价Ps*，再将Ps*带入Sd(Ps)和Sr(Ps)，可以得到最优批发商批发价Pd*和最优零售价Pr*将Ps*、Pd*和Pr*带入Us、Ud和Ur，得到零售商、批发商和供应商的最大利润分别为：从这种情形的研究结果可以看到一些更为一般的结论。首先供应商、批发商和零售商的最优价格都与市场结构有关，且离市场越近，市场的影响因子越大，具体体现为：a/b的1/2倍、3/4倍和7/8倍，即(2n-1)/2n 的倍数关系。这一点比较容易理解。其次供应商、批发商和零售商的最优价格都与三者的成本有关，降低其中任何一位的成本，不仅能提高自己的利润，也能提高供应链合作伙伴的利润。供应商批发价格只与自己的成本和零售商成本有关，且与两个环节时保持一致，应该是由其在供应链的地位决定的。可以见到供应链信息共享不仅包括需求信息，也包括各自的成本，如何诱导大家如实地表述自己的成本就是一个共性的需要重点研究的问题。我们还发现在1：1：1这样的线性供应链中，拥有实力先定价的一方比参考别人后决定价格一方利润多一倍。得到了实力与风险的价值的一种2的幂次关系。先行定价者拥有比后定价者多一倍的利润，使得企业具有做大做强自己，使自己具有在供应链上先行定价的权利和资格，成为追求企业自身利益的非常有效的方式。一个比较具体的有说服力的案例就是OPEC，由于其在世界能源及化工产业供应链的龙头地位，并且由于对自然资源的垄断地位，可以自主决定其产品原油的售价，所以具有比下游企业多2n倍的利润，这种情况需要我们重新审视供应链关系及其协调机制，以确定有利于全球经济发展的方案。3.3复合产业组织在由一个制造商和两个零售商组成的供应链上，假定制造商M的单位生产成本为cm，两个零售商（R1，R2）的单位运营成本分别为cr1和cr2。其中由制造商先决定批发价格pm然后零售商决定各自的销售量qi（通过向制造商下订单qi的方式实现），零售价格pr = a- (q1+q2 )。M/cmpmR1/ cr1R2/ cr2q1q2CCpr = a- (q1+q2 )研究两种情形下产业组织

展开阅读全文

博弈论与信息经济学20120928 (2)

最新文档