资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,博弈论要点,博弈:决策主体在互相对抗中,对抗双方(或多方)互相依存的一系列策略和行动的过程集合,参与人的利益有冲突,博弈是一个过程集合(参与人、策略、行动、信息等,)。,把博弈视为集合是思维从具体到抽象的重要一步,博弈的一个本质特征是策略的相互依存性,博弈论:专门研究博弈如何出现均衡的规律的学问,博弈论要点博弈:决策主体在互相对抗中,对抗双方(或多方)互相,1,博弈论要点,博弈论的基本概念包括:参与人、行动、信息、战略、支付函数、结果、均衡,其中,参与人、行动、结果合称博弈规则,博弈有不同的种类:,从行动顺序角度:,静态博弈,。,参与人同时选择行动,动态博弈。参与人的行动有先后顺序,从拥有信息角度:,完全信息博弈。每个参与人对所有其他参与人的特征、战略空间、支付函数有准确的知识,不完全信息博弈。,博弈论要点博弈论的基本概念包括:参与人、行动、信息、战略、支,2,博弈论要点,将二角度结合,博弈有四种:,完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全信息动态博弈,博弈论要点将二角度结合,博弈有四种:,3,完全信息静态,博弈的基本概念及战略式表述,战略,s,:,参与人在给定信息集时的行动规则,静态博弈中,战略等同于行动,战略必须是完备的,支付,u,。,u,=,u,i,(,s,1,s,i, ,s,n,),结果,均衡,s,*=(,s,1,*,s,i,*, ,s,n,*,),均衡:一种所有动作的影响都互相抵消,整个系统处于平稳的、均势的、不变的状态,完全信息静态博弈的基本概念及战略式表述战略s:参与人在给定信,4,占优策略,(,dominant strategies,),是指这样一种特殊的博弈:某一参与人的策略,不依赖于其他参与人的策略选择,。换句话说,无论其他参与人如何选择自己的策略,该参与人的最优策略选择是唯一的。,占优策略均衡,(,Dominant-Strategy equilibrium, DSE):,由占优策构成的战略组合,,完全信息静态博弈:纳什均衡,基本分析思路和方法,占优策略(dominant strategies)是指这样一,5,囚犯,1,囚犯,2,5,-5,8,8,占优策略均衡,案例,1-,囚徒困境,囚犯1囚犯25-588占优策略均衡 案例1-囚徒困境,6,5,,,1,4,,,4,9,,,-1,0,,,0,等待,小猪,大猪,按,等待,按,等待是小猪的严格占优战略,大猪有无严格占优战略?,并不是所有的博弈均衡都是占优均衡,.,例如,智猪博弈,7,二、 纳什均衡,(Nash Equilibrium),纳什均衡是各博弈方都不愿意单独改变的战略的组合。,纳什均衡的含义就是 给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你的最好的策略。即双方在给定的策略下不愿意调整自己的策略。,二、 纳什均衡(Nash Equilibrium)纳什均衡是,8,划线法求解纳什均衡,含义是:假设有两个参与人,1,和,2,,先考虑参与人,1,的策略,对于每一个给定的的策略,找出的最优策略,在其对应的支付下划一横线;然后再用类似的方法找出的最优策略,也在其对应的支付下划一横线。完成所有的这个过程后,如果矩阵的某个单元格的两个支付数字下都有下划线,那么这个支付组合所对应的策略组合就是一个纳什均衡。,划线法求解纳什均衡含义是:假设有两个参与人1和2,先考虑参与,9,由于占优均衡要求高,许多博弈不存在,上述类型的均衡。如下例:,参与人,2,(,4,,,1,),(,2,,,0,),(,3,,,5,),(,4,,,8,),参与人,1,M,L,R,K,上述博弈不存在占优均衡。下面考察,战略组合(,L,,,K,)。给定参与人,2,选择,K,,,L,是参与人,1,的最优,战略。反个来,给定参与人,1,选择,L,,,K,是参与人选择的最优,战略。(,L,,,K,)是博弈双方不愿意偏离的战略,即达到相对,稳定。该战略组合就是纳什均衡。,由于占优均衡要求高,许多博弈不存在参与人2 (4,1)(2,,10,占优战略均衡是一种纳什均衡,占优战略均衡是比纳什均衡更强、稳定性更高的均衡概念,只是占优战略均衡在博弈问题中的普遍性比纳什均衡要差得多。,囚徒,A,囚徒,B,-1,,,-1,-10,,,0,0,,,-10,-8,,,-8,坦白,抵赖,坦白,抵赖,占优战略均衡是一种纳什均衡囚徒A囚徒B -1, -,11,参与人,1,参与人,2,A,B,C,D,1,,,5,0,,,2,-5,,,0,2,,,5,纳什均衡有两个,但是纳什均衡不一定是占优均衡,在博弈分析中,可以首先考察是否存在占优战略均衡,若不存在,再寻找纳什均衡,参与人1参与人2ABCD 1, 5 0,2,12,例2:圈猪博弈(,boxed pigs),完全信息静态博弈:纳什均衡,小猪,按 等待,大猪,按,等待,5,-1,4,,,4,9,,-1,0,,0,例2:圈猪博弈(boxed pigs)完全信息静态博弈:纳什,13,例3:性别战,(,battle of sexes),女,足球 芭蕾,男,足球,芭蕾,2,,,1,0,0,0,0,1,,2,完全信息静态博弈:纳什均衡,先动优势所形成的“解”形成的机会,例3:性别战(battle of sexes)女足球,14,例4:斗鸡博弈,(,chicken game),(,胆小鬼博弈),完全信息静态博弈:纳什均衡,B,进 退,A,进,退,-3,-3,2,,,0,0,,,2,0,0,例4:斗鸡博弈(chicken game)(胆小鬼博弈)完全,15,例5:进入阻挠,(,entry deterrance),完全信息静态博弈:纳什均衡,在位者,默许 斗争,进入者,进入,不进入,40,,,50,-10,0,0,,300,0,,,300,例5:进入阻挠(entry deterrance)完全信息静,16,例,1,每一参与人拿有一枚硬币并必须选择是出正面向上还是反面向上。若两枚硬币是一致的,(,即全部正面向上或全部反面向上,),,则参与人,2,赢走参与人,1,的硬币;如果两枚硬币不一致,(,一正一反,),,参与人,1,赢得参与人,2,的硬币。支付如下:,参与人,1,参与人,2,-1,,,1,1,,,-1,1,,,-1,-1,,,1,正面,反面,正面,反面,由划线法可知,该博弈不存在纳什均衡。所以采取纯战略(即确定性选择战略)不存在稳定的纳什均衡解。,三、混合战略纳什均衡,在许多博弈模型中可能不存在纳什均衡,如下例,例1 每一参与人拿有一枚硬币并必须选择是出正面向上还是,17,社会福利博弈,2,3,,,3,-1,,,1,-1,,,0,0,,,流浪,流浪汉,政府,救济,不救济,寻找工作,没有一个战略组合构成纳什均衡,社会福利博弈 2 3,18,每一参与人拿有一枚硬币并必须选择是出正面向上还是反面向上。若两枚硬币是一致的,(,即全部正面向上或全部反面向上,),,则参与人,2,赢走参与人,1,的硬币;如果两枚硬币不一致,(,一正一反,),,参与人,1,赢得参与人,2,的硬币。支付如下:,猜谜游戏,1,-1,,,-1,1,,,-1,1,,,1,-1,,,反面,正面,反面,正面,零和博弈,博弈参与者有输有赢,但结果永远是,0,。,没有一个战略组合构成纳什均衡,每一参与人拿有一枚硬币并必须选择是出正面向上,19,在这类博弈中,都不存在纯纳什均衡。,参与人的支付取决于其他参与人的战略;以某种概率分布随机地选择不同的行动,每个参与人都想猜透对方的战略,而每个参与人又不愿意让对方猜透自己的战略。,这种博弈的类型是什么?如何找到均衡?,上述博弈的特征是:,在这类博弈中,都不存在纯纳什均衡。上述博弈的特征是:,20,混合战略,混合战略,21,1,-1,,,-1,1,,,-1,1,,,1,-1,,,反面,正面,反面,正面,猜谜游戏,两个参与人的最优策略是采取每个策略的可能性均为,1/2,;,每个参与人各取策略的,1/2,是纳什均衡。,1 -1 -1,22,参与人以一定的概率选择某种战略,然后计算相应于不同概率的期望效用。,纯战略:参与人在每一个给定信息情况下选择一种特定的行动,(以概率,1,选择某一行动),混合战略:在给定信息情况下以某种概率分布随机地选择不同的行动,例,1,、社会福利博弈,3, 2,-,1 ,3,-,1 ,1,0, 0,救济,不救济,政府,寻找工作,游荡,流浪汉,参与人以一定的概率选择某种战略,然后计算相应于不同概率的期望,23,2,3,,,3,-1,,,1,-1,,,0,0,,,流浪,流浪汉,政府,救济,不救济,寻找工作,即:流浪汉以,0.2,的概率选择寻找工作,,0.8,的概率选择游荡,同样,可以根据流浪汉的期望效用函数找到政府的最优混合战略。?,支付最大化法,2 3 1,24,对,*,= 0.2,的解释:,如果流浪汉以找工作的概率小于,0.2,,则政府选择不救济,如果大于,0.2,,政府选择救济,只有当概率等于,0.2,时,政府才会选择混合战略或任何纯战略,.,对,*,= 0.5,的解释,如果政府救济的概率大于,0.5,,流浪汉的最优选择是流浪,如果政府救济的概率小于,0.5,,流浪汉的最优选择是寻找工作,.,对*= 0.2 的解释:,25,混合战略纳什均衡的含义:,纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的最优选择。因此在社会福利博弈中,,*,= 0.2,,,*,= 0.5,是唯一的混合战略纳什均衡。,混合战略纳什均衡的含义:,26,支付相等法,每个参与人的混合策略都使其余参与人的任何纯策略的期望支付相等,因此,解混合策略纳什均衡可以令参与人的各个纯策略支付相等,构成方程组求解。,B,正面 反面,A,正面,反面,-1,1,1,-1,1,-1,-1,1,流浪汉,找工作 游荡,政府,救济,不救济,3,2,-1,3,-1,1,0,0,支付相等法每个参与人的混合策略都使其余参与人的任何纯策略的,27,设流浪汉找工作的概率为,p,,则游荡为1-,p,政府的支付:,当政府救济,政府得到3,p-(1-p)=4p-1,当政府不救济,政府得到-,p+0=-p,流浪汉应比较两种策略:,4,p-1-p,p0.2,或者4,p-1-p,p3q, q0.5,设流浪汉找工作的概率为p,则游荡为1-p,28,1.4 混合战略纳什均衡,纯战略:参与人在每一个给定信息的情况下只选择一个特定的行动,混合战略:参与人在每一个给定信息的情况下以某种概率分布随机地选择不同的行动,纯战略可视为混合战略的特例,“流浪汉”的纳什均衡:政府以0.5救济,流浪汉以0.2找工作,1.4 混合战略纳什均衡纯战略:参与人在每一个给定信息的情,29,2 完全信息动态博弈,不能同时选择和行动的博弈是动态博弈Dynamic Games,后行动者可以先观察别人的行动,自己再选择,2 完全信息动态博弈不能同时选择和行动的博弈是动态博弈Dy,30,2.1 博弈的扩展式表述,要素:,一个动态博弈的扩展式表达应包含以下要素:,参与人集合:,i=1,n,;,参与人的行动顺序:谁在什么时候行动;,参与人的行动空间:在每次行动时,参与人有些什么行动可供选择;,参与人的信息集:每次行动时,参与人知道些什么;,参与人的得益函数:在博弈结束后,每个参与人得到些什么;,外生事件(即“自然”的选择)的概率分布。,2.1 博弈的扩展式表述要素:,31,2.1 博弈的扩展式表述,博弈树的基本元素:,结、枝、信息集,需要注意的概念:前列集、后续集;初始结、决策结、终点结;直接前列结、直接后续结。以及相应的符号,信息集:某个参与人都知道些什么,信息集是用来标注某个人知道些什么信息的,不同的标注表示这个人知道不同的信息,2.1 博弈的扩展式表述博弈树的基本元素:,32,设有一家企业的产品被另一家企业仿冒,如果被仿冒企业采取措施制止,仿冒企业就会停止仿冒,如果被仿冒企业不采取措施制止,仿冒企业就会继续仿冒。对被仿冒企业来说,被仿冒当然会造成经济损失,因此采取措施制止是符合自身利益的,但制止仿冒是有代价的,因此在遭仿冒时是否应该制止是需要研究的问题。对于仿冒企业来说,仿冒不被制止能获得很大利益,但如果被制止就会偷鸡不着蚀把米,因此是否仿冒也要仔细推敲。所以,这两个企业在仿冒和制止的问题上,存在着一个行为和利益相互依存的博弈问题。由于只有在已经遭到仿冒的情况下被仿冒企业才需要考虑是否制止,因此这是一个动态博弈问题。,例 仿冒与反仿冒,设有一家企业的产品被另一家企业仿冒,如果被仿冒,33,A,仿冒,不仿冒,B,制止,不制止,A,(0,10),(-2,5),仿冒,不仿冒,B,制止,不制止,(5,5),(2,2),(10,4),A仿冒不仿冒B制止不制止A(0,10)(-2,5)仿冒不仿冒,34,博弈树,博弈树结构元件:,结,:包括决策结和终点结。所有旁边标注参与人的圆圈都是决策结,决策结是参与人采取行动的时点,其和旁边标注的参与人共同给出了该博弈的参与人和各参与人的行动顺序;下边标注各参与人得益的圆圈是终点结,表明博弈结束,并标明博弈的一个可能结果,并唯一地给出到达该结果的一条博弈路径。,枝,:枝是从一个决策结到其直接后续结的连线,每一个枝代表参与人的一个行动选择。枝旁标注该具体行动的代号。一般每个决策结下有多个枝,给出每次行动时参与人的行动空间。,信息集,:博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结称为一个信息集。,博弈树博弈树结构元件:,35,一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合),该子集包括所有满足下列条件的决策结:,(,1)每一个决策结都是同一个参与人的决策结,(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。,一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合,36,进入者,进,不进,在位者,在位者,默许,打击,默许,打击,(,40,,,50,),(,-10,,,0,),(,0,,,300,),(,0,,,300,),结:包括决策结和终点结;枝:从一个决策结到其直接后续结的连线;信息集:博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结称为一个信息集。,进入者进不进在位者在位者默许打击默许打击(40,50),37,扩展式表述博弈的纳什均衡,需求大,开发,者,利润8千万,,不开发者,利润0。,需求大,,两者都开发,利润各为4千万。,需求小,开发,者,利润1千万,,不开发者,利润0。,需求小,,两者都开发,利润各为-3千万,两者都,不开发利润各为0。,博弈树:房地产开发博弈,I,A,开发 不开发,大 小 大 小,开发 不开发 开 不开 开 不开 开 不开,(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0),N1 N2,B1 B2 B3 B4,扩展式表述博弈的纳什均衡需求大,开发者利润8千万,不开发者利,38,结(,nodes):,枝(,branches):,信息集(,information sets):,博弈树的结构,包括决策结和终点结。决策结是参与人采取行动的时点;终点结是博弈行动路径的终点。,枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。,一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合),该子集包括所有满足下列条件的决策结:,(,1)每一个决策结都是同一个参与人的决策结,(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。,结(nodes):博弈树的结构包括决策结和终点结。决策结是参,39,信息集:房地产博弈,II,A,开发 不开发,大 小 大 小,开发 不开发 开 不开 开 不开 开 不开,(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0),N1 N2,B1,B2,B3,B4,信息集:房地产博弈IIA 开发,40,信息集:房地产博弈,III,A,开发 不开发,大 小 大 小,开发 不开发 开 不开 开 不开 开 不开,(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0),N1 N2,B1,B2,B3,B4,信息集:房地产博弈IIIA 开发,41,信息集:房地产博弈,IV,N,大 小,开 不开 开 不开,开发 不开发 开 不开 开 不开 开 不开,(4,4) (8,0) (0,8) (0,0) (-3,-3) (1,0) (0,1) (0,0),B1 B2,A1 A2 A3 A4,信息集:房地产博弈IVN,42,子博弈,子博弈精炼纳什均衡,子博弈精炼纳什均衡求解方法,承诺行动与子博弈精炼纳什均衡,子博弈,43,一、子博弈,定义:由一个单结信息集开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。,一、子博弈定义:由一个单结信息集开始的与所有该决策结的后续结,44,子博弈由一个决策结,x,和所有该决策结的后续结,T(x)(,包括终点结)组成,它满足下列条件:,(1),x,是一个单结信息集;,(2)子博弈不改变原博弈的信息集和支付向量,子博弈,条件1说的是一个子博弈必需从一个单结信息集开始。即:(1)当且仅当决策者在原博弈中确切地知道博弈进入一个特定的决策结时,该决策结才能作为一个子博弈的开始。(2)如果一个信息集包含两个以上决策结,没有任何一个决策结可以作为子博弈的初始结。,A,开发 不开发,大 小 大 小,开发 不开发 开 不开 开 不开 开 不开,(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0),N1 N2,B1 B2 B3 B4,A,开发 不开发,大 小 大 小,开发 不开发 开 不开 开 不开 开 不开,(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0),N1 N2,B1,B2,B3,B4,条件2说的是,子博弈的信息集和支付向量都直接继承自原博弈,并不会发生任何变化。,这意味着子博弈不能分割原博弈的信息集。,A,开发 不开发,大 小 大 小,开发 不开发 开 不开 开 不开 开 不开,(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0),N1 N2,B1,B2,B3,B4,子博弈由一个决策结x和所有该决策结的后续结T(x)(包括终点,45,乙,借,不借,甲,分,不分,(1,0),法律保障不足的开金矿博弈,(0,,,4),(2,,,2),(-1,0),打,不打,乙,乙借不借甲分不分(1,0)法律保障不足的开金矿博弈(0,4),46,乙,借,不借,甲,分,不分,(1,0),法律保障不足的开金矿博弈,(0,,,4),(2,,,2),(-1,0),打,不打,乙,乙借不借甲分不分(1,0)法律保障不足的开金矿博弈(0,4),47,A,仿冒,不仿冒,B,制止,不制止,A,(0,10),(-2,5),仿冒,不仿冒,B,制止,不制止,(5,5),(2,2),(10,4),仿冒与反仿冒博弈,A仿冒不仿冒B制止不制止A(0,10)(-2,5)仿冒不仿冒,48,二、子博弈精炼纳什均衡,定义:如果在一个完全信息动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个子博弈精炼纳什均衡。,二、子博弈精炼纳什均衡定义:如果在一个完全信息动态博弈中,各,49,三、子博弈精炼纳什均衡求解方法,逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。,完全信息动态博弈的每一个决策结都是一个单独的信息集,每一个决策结都开始一个子博弈。这样,可以从最后一个子博弈开始(即从最后一个决策结开始)逆推上去,求解子博弈精炼纳什均衡。,三、子博弈精炼纳什均衡求解方法逆向归纳法是求解子博弈精炼纳什,50,逆向归纳法,逻辑基础:动态博弈中先行动的博弈方,在前面阶段选择行为时必然会考虑后行为博弈方在后面阶段的选择,只有在博弈最后一个阶段选择的博弈方才能直接作出明确选择。而当后面阶段博弈方的选择确定后,前一阶段博弈方的行为也就容易确定了。,一般方法:从动态博弈的最后一个阶段开始分析,每一次确定出所分析阶段博弈方的选择和路径,然后再确定前一个阶段博弈方的选择和路径,逐步向前逆推以求解出动态博弈均衡。,逆向归纳法逻辑基础:动态博弈中先行动的博弈方,在前面阶段选择,51,例 求解下面三阶段博弈的子博弈精炼纳什均衡,子博弈精炼纳什均衡策略组合为(,U,,,U,),(,L,)。最后的均衡结果是参与人,1,在第一阶段选择结束博弈,参与人,1,、,2,得益分别为,2,、,0,。,1,(2,0),(1,2),2,1,(3,0),(1,3),例 求解下面三阶段博弈的子博弈精炼纳什均衡 子博弈精,52,房地产开发博弈,A,不开发,开发,B,B,开发,不开发,开发,不开发,(-1,-1),(1,0),(0,1),(0,0),房地产开发博弈A不开发开发BB开发不开发开发不开发(-1,53,开金矿,I,无法律的博弈,乙,甲,借 不借,分 不分,(2,2) (0,4),(1,0),开金矿I无法律的博弈 乙,54,开金矿,II,有法律保障的博弈,乙,甲,借 不借,分 不分,(2,2),打 不打,(1,0) (0,4),(1,0),开金矿II有法律保障的博弈 乙,55,逆向归纳法,开 不开,开 不开 开 不开,(-3,-3) (1,0) (0,1) (0,0),A,B B,房地产开发:需求小,逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推以求解动态博弈的方法。,逆向归纳法开 不开开,56,子博弈精炼纳什均衡,扩展式博弈的战略组合,s*=(s,1,*,s,i,*,s,n,*),是一个子博弈精炼纳什均衡,如果:,(1)它是原博弈的纳什均衡;,(2)它在每一个子博弈上给出纳什均衡。,一个战略组合是,个子博弈精炼纳什均衡,当只当它在每一个子博弈上都构成一个纳什均衡,子博弈精炼纳什均衡扩展式博弈的战略组合s*=(s1*,s,57,
展开阅读全文