9不完全信息与声誉

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,不完全信息重复博弈与声誉,1,有限次重复博弈,证明，只要未来足够重要，合作行为可以是无限次重复博弈的精炼纳什均衡。,但是，现实中许多博弈是有限次的，不是无限次的。,如果博弈重复的次数是有限的，无论重复多少次，合作都不会出现。,2,“连锁店悖论”(chain-store paradox),Selten (1978);,进入者,在位者,进入,不进入,默许,斗争,（40，50）,（-10，0）,（0，100）,3,逆向归纳,假定在位者有20个市场。直观告诉我们，如果进入者在第一个市场进入，在位者应该选择斗争，因为尽管从一个市场看，斗争是不值得的，但这样做可以遏止进入者在其他市场上的进入。,唯一的精炼纳什均衡是：进入者总是进入；在位者总是默许。,4,Axelrod 实验,Axelrod（1981）实验表明：即使在有限次博弈中，合作行为也频繁出现。,5,问题在哪里？,一个可能的原因在于：我们前面假定不仅参与人的理性是共同知识，而且每个参与人可以选择的战略和效用函数都是共同知识。但现实不是这样。,可能性：逆向归纳方法的问题（理性共识）；信息不完全；,如果信息是完全的，谈判一开始就达成协议，但现实中的谈判不是这样，原因在于信息不对称。,6,不完全信息,KMRW模型（1982）；,如果参与人对其他参与人的效用函数和战略空间的信息不完全，即使博弈重复的次数是有限的，人们也有积极性建立一个合作的声誉(reputation)，合作会出现。,7,单方不完全信息,假定有两个参与人，A和B，进行囚徒困境博弈。如下图。,参与人A有两种可能的类型：“非理性”型：只有一种战略，tit-for-tat (TFT)，或者grim strategy, 概率为p; “理性”型：可以选择任何战略，概率为（1-p）；,参与人B有一种类型：理性型。,8,对“非理性”的解释,特殊的成本函数或效用函数；,讲义气、重情谊的人；内在化了 reciprocity 社会规范的人；,认知问题；,9,囚徒困境博弈,合作,背叛,合作,背叛,3，3,-1，4,4，-1,0，0,A,B,10,博弈重复两次,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X,背叛,背叛,X,背叛,11,第2阶段,参与人A：如果是理性的，选择“背叛”；如果是非理性的，选择B在第1阶段的行动（X）；,参与人B：选择“背叛”。,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X,背叛,背叛,X,背叛,12,第1阶段,参与人A：如果是非理性的，选择“合作”；如果是理性的，选择“背叛”；,参与人B：如果选择合作，面临被背叛的风险，但如果A是非理性的，可以换来第2阶段的合作。,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X,背叛,背叛,X,背叛,13,B在第2阶段的选择,选择合作，期望效用是：,3p+(-1)(1-p)+4p+0(1-p)=8p-1,如果选择背叛，期望效用函数是：,4p+0(1-p)+0=4p,最优选择是合作，如果：p=0.25;,结论：如果B认为A非理性的概率不小于0.25, B,在第1阶段会选择合作，即使博弈只重复两次。,t=1,t=2,A,非理性(p),理性型(1-p),B,（理性型),合作,X,背叛,背叛,X,背叛,合作,背叛,合作,背叛,3，3,-1，4,4，-1,0，0,A,B,14,博弈重复3次,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X,？,背叛,X,X,t=3,X,背叛,背叛,15,参与人A（理性）的选择,如果A是理性的，在第2阶段和第3阶段一定会选择背叛，但第1阶段也可能选择合作，因为建立一个合作的形象可以换取B在第2阶段的合作；,如果p=0.25, 并且A认为B在第1阶段会合作，给定A在第1阶段合作的话B在在第2阶段也会合作（后验概率不变），那么A选择合作得到：3+4+0=5；,如果A选择背叛，得到：4+0+0=4；,所以合作是最优的。,合作,背叛,合作,背叛,3，3,-1，4,4，-1,0，0,A,B,t=1,t=2,A,非理性(p),理性型(1-p),B,（理性型),合作,X,？,背叛,X,X,t=3,X,背叛,背叛,16,参与人B的选择,B有四种战略：,（合作，合作，背叛）；,（合作，背叛，背叛）；,（背叛，背叛，背叛）；,（背叛，合作，背叛）,17,（合作，合作，背叛）,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X=合作,合作,背叛,X=合作,X=合作,t=3,X=合作,背叛,背叛,3+ 3p+(-1)(1-p)+ 4p+0=8p+2,预期效用=,合作,背叛,合作,背叛,3，3,-1，4,4，-1,0，0,A,B,18,（合作，背叛，背叛）,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X=合作,合作,背叛,X=合作,X=背叛,t=3,X=背叛,背叛,背叛,3+ 4p+0(1-p)+ 0= 4p+3,预期效用=,19,（背叛，背叛，背叛）,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X=背叛,合作,背叛,X=背叛,X=背叛,t=3,X=背叛,背叛,背叛,4+ 0 +0= 4,预期效用=,20,（背叛，合作，背叛）,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X=背叛,合作,背叛,X=背叛,X=合作,t=3,X=合作,背叛,背叛,4+ （-1） +4p+0(1-p)= 4p+3,预期效用=,21,P=1,8p+2 (,合作，合作，背叛）,0.25,4p+3 (合作，背叛，背叛）,（背叛，合作，背叛）,=4（背叛，背叛，背叛）,22,结论,只要p=0.25, 下表所列战略组合是一个精炼纳什均衡：,理性型A在第1阶段选择合作，然后在第2和第3阶段选择背叛；,B在第1和第2阶段选择合作，然后在第3阶段背叛。,23,精炼纳什均衡,t=1,t=2,A,非理性(p),理性型(1-p),B （理性型),合作,X=合作,合作,背叛,X=合作,X=合作,t=3,X=合作,背叛,背叛,24,一般结论,可以证明：如果博弈重复T次，只要p=0.25, 对于所有的T=3, 下列战略组合构成一个精炼纳什均衡：理性型A在t=1.T-2,阶段选择合作，在T-1和T阶段选择背叛；B在t=1.T-1阶段选择合作，在最后阶段T选择背叛。,背叛只在最后两阶段出现。,25,双方不完全信息,在单方不完全信息下，只要p=4;,T*=(5-p)/p;,所以，无论p多小，只要博弈重复的次数足够大，一开始就选择背叛不是最优的。,28,KMRW定理,在不完全信息的情况下，只要博弈重复的次数足够长，参与人就有积极性在博弈的早期建立一个“合作”的声誉；只是在博弈的后期，才会选择背叛；并且，非合作阶段的数量只与p有关，而与博弈的次数T无关。,看似不理性的行为其实是理性的；,29,KMRW定理的直观解释,尽管每一个囚徒在选择合作时冒着被其他囚徒出卖的风险（从而可能得到一个较低的现阶段支付），但如果他选择不合作，就暴露了自是非合作型的，从而失去了获得长期合作受益的可能，如果对方是合作型的话。,如果博弈重复的次数足够多，未来收益的损失就超过短期被出卖的损失，因此在博弈得开始，每一个参与人都想树立一个合作的形象，即使他本性上并不是合作型的；只有博弈快结束时,参与人才会一次性的把自己过去建立的声誉利用尽，合作才会终止。,30,解开“连锁店悖论”,Selten (1978);,进入者,在位者,进入,不进入,默许,斗争,（40，50）,（-10，0）,（0，100）,31,声誉的积累,32,

展开阅读全文

9不完全信息与声誉

最新文档