资源描述
3.5 不完全信息动态博弈不完全信息动态博弈3.5.1 不完全信息博弈不完全信息博弈 “自然”首先选择参与人的类型,参与人自己知道,其他参与人不知道;参与人开始行动,后行动者能观测到先行动者的行动,但不能观测到先行动者的类型;后行动者通过观察先行动者所选择的行动来推断类型或修正对其类型的先验信念(概率分布),然后选择自己的最优行动;先行动者预测到自己的行动将被后行动者所利用,就会设法选择传递对自己最有利的信息,避免传递对自己不利的信息。13.5.2 3.5.2 贝叶斯法则先验概率(prior probability):修正之前的判断;后验概率(posterior probability):修正之后的判断23.5.2 3.5.2 贝叶斯法则贝叶斯法则:假定参与人i有K个类型,有H个行动,用k和sh分别代表一个特定的类型和战略,假定i属于k的先验概率是p(k)0,p(k)=1,i选择sh的条件概率为p(shk),p(shk)=1。33.5.2 3.5.2 贝叶斯法则贝叶斯法则:假如观测到i选择了sh,i属于类型k的后验概率Prob(ksh)有以下公式存在:43.5.2 3.5.2 贝叶斯法则贝叶斯法则举例:假定现实中分为好人(1)和坏人(2)(type),所有的事分为好事(s1)和坏事(s2)(strategy),那么一个人干好事的概率ps1就等于他是好人的概率p(1)(先验概率)乘以好人干好事的概率p(s11),加上他是坏人的概率p(2)乘以坏人干好事p(s12)的概率,即ps1=p(s11)p(1)+p(s12)p(2)(边缘概率)。53.5.2 3.5.2 贝叶斯法则贝叶斯法则举例:假定观测到一个人干了一件好事,那么这个人是好人的后验概率为:63.5.2 3.5.2 贝叶斯法则贝叶斯法则举例:假设认为这个人是好人的先验概率为1/2,那么在观测到他干了好事之后来修正他是好人的先验概率依赖于这件事好到什么程度。假设这件事非常好,好人一定干,坏人一定不干,则有p(s11)=1,p(s12)=0,那么后验概率Prob(1s1)=(1*1/2)/(1*1/2+0*1/2)=1假设这是一件非常一般的好事,好人会干,坏人也会干,则有p(s11)=1,p(s12)=1,后验概率Prob(1s1)=(1*1/2)/(1*1/2+1*1/2)=1/2假设介于上述两种之间,好人肯定会做,坏人可能做也可能不做,则有p(s11)=1,p(s12)=1/2,后验概率Prob(1s1)=(1*1/2)/(1*1/2+1/2*1/2)=2/373.5.3 3.5.3 精炼贝叶斯均衡(PBNE)PBNE是不完全信息动态均衡的基本均衡概念,是泽尔腾的完全信息动态博弈子博弈精炼纳什均衡(SPNE)和海萨尼的不完全信息静态博弈贝叶斯均衡(BNE)的结合。BNE中,参与人的信念是事前给定的,均衡概念没有规定参与人如何修正自己的信念。SPNE要求均衡战略不仅在整个博弈上构成纳什均衡,而且要求在每个子博弈上构成纳什均衡,剔除了那些包含不可置信威胁的战略。83.5.3 3.5.3 精炼贝叶斯均衡(PBNE)PBNE要求,给定每一个参与人有关其他参与人类型的后验信念,参与人的战略组合在每一个后续博弈(continuation game,每一个信息集开始的博弈的剩余部分,不同于开始于单结信息集的子博弈)上构成贝叶斯均衡。99.5.3 9.5.3 精炼贝叶斯均衡(PBNE)PBNE要求:(1)在每一个信息集上,决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念);(2)给定该信息集上的概率分布和其他参与人的后续战略,参与人的行动必须是最优的;(3)每一个参与人根据贝叶斯法则和均衡战略修正后验概率。103.5.3 3.5.3 精炼贝叶斯均衡(PBNE)精炼贝叶斯均衡的定义:s*()=(s1*(1),sn*(n)和一个后验概率组合 ,满足:(P)对于所有的参与人i,在每一个信息集h,存在(B)是使用贝叶斯法则从先验概率pi(-ii),观测到的行动 和最优战略 得到的。113.5.3 3.5.3 精炼贝叶斯均衡(PBNE)精炼贝叶斯均衡是均衡战略和均衡信念的结合:给定信念 ,战略s*=(s1*,sn*)是最优的;给定战略s*=(s1*,sn*),信念 是使用贝叶斯法则从均衡战略和所观测到的行动得到的。123.5.4 3.5.4 信号传递博弈及其应用信号传递博弈(signaling games)是一种比较简单但有广泛应用意义的不完是一种比较简单但有广泛应用意义的不完全信息动态博弈(斯宾塞,全信息动态博弈(斯宾塞,19741974)博弈中有两个参与人博弈中有两个参与人,1,1的类型是私人信息的类型是私人信息,为信号发送者为信号发送者;2;2的类型是公共信息的类型是公共信息,为信号接为信号接收者。收者。133.5.4 3.5.4 信号传递博弈及其应用博弈顺序(1)“自然”首先选择1的类型,2只知道1属于的先验概率p=p();(2)1在观测到类型后选择发出信号mM,M=m1,mJ是信号空间;(3)2观测到m(而非)使用贝叶斯法则从先验概率p得到后验概率 ,然后选择战略aA;(4)支付函数分别为u1(m,a,),u2(m,a,)。143.5.4 3.5.4 信号传递博弈及其应用信号传递博弈的精炼贝叶斯均衡是战略组合(m*(),a*(m)和后验概率 的结合,它满足:(P1)a*(m)argmax u2(m,a,)(P2)m*()argmaxu1(m,a*(m),);(B)是参与人2使用贝叶斯法则从先验概率p=p()、观测到的信号m和参与人1的最优战略m*()得到的。153.5.4 3.5.4 信号传递博弈及其应用分离均衡(Separating equilibrium)不同类型发送者以1的概率选择不同信号,或者说,没有任何类型选择与其他类型相同的信号。在分离均衡下,信号准确地揭示出类型。163.5.4 3.5.4 信号传递博弈及其应用分离均衡(Separating equilibrium)如果m1是类型1的最优选择,m1就不可能是2的最优选择,并且,m2一定是类型2的最优选择,即:u1(m1,s*(m),1)u1(m2,s*(m),1)u1(m2,s*(m),2)u1(m1,s*(m),2)后验概率为:173.5.4 3.5.4 信号传递博弈及其应用混同均衡(pooling equilibrium)不同类型的发送者选择相同的信号,或者说,没有任何类型选择与其他类型不同的信号,因此,接收者不修正先验概率。183.5.4 3.5.4 信号传递博弈及其应用混同均衡(pooling equilibrium)假定mj是均衡战略,那么:u1(mj,s*(m),1)u1(m,s*(m),1)u1(mj,s*(m),2)u1(m,s*(m),2)193.5.4 3.5.4 信号传递博弈及其应用市场进入博弈 假定有两个时期t=1,2。在 t=1,市场上一个垄断企业(在位者)在生产,一个潜在的进入者考虑是否进入。如果进入,两个企业进行库诺特博弈,否则在位者仍是一个垄断者。假定在位者有两个可能类型,高成本或低成本,其概率分别为,1-(先验信念)。假定进入者只有一个类型,进入成本为2。如果进入,生产成本函数与高成本的在位者相同。203.5.4 3.5.4 信号传递博弈及其应用市场进入博弈 在t=1,作为垄断者的在位者要决定该时期的价格,有三种可能的价格选择,p=4,p=5或p=6;如果在位者是高成本,对应三种价格选择的利润分别是:2,6,或7 如果在位者是低成本,对应三种价格选择的利润分别是:6,9,或8213.5.4 3.5.4 信号传递博弈及其应用市场进入博弈 在t=2,如果在位者是高成本,两企业成本函数相同,对称的库诺特均衡产量下的价格为p=5,每个企业的利润是3;如果在位者是低成本,非对称的库诺特均衡产量下的价格为p=4,在位者利润是5,进入者利润是1;在完全信息情况下,如果在位者是高成本,进入者选择进入;如果在位者是低成本,进入者选择不进入。223.5.4 3.5.4 信号传递博弈及其应用市场进入博弈N在位者在位者进入者进入者高低P=4 P=5 P=6 P=4 P=5 P=6 进进 不不 进进 不不 进进 不不 进进 不不 进进 不不 进进 不不第一阶段 (2,0)(2,0)(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)(8,0)(8,0)第二阶段 (3,1)(7,0)(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(5,-1)(9,0)1-233.5.4 3.5.4 信号传递博弈及其应用市场进入博弈求解(一)单阶段最优垄断价格p=6(高成本)或p=5(低成本),不是精炼贝叶斯均衡。如果进入者这样选择,则后验概率(6)=1(选择p=6证明在位者是高成本),(5)=0(选择p=5证明在位者是低成本)给定后验概率,当观测到在位者选择p=6,进入者选择进入,在位者两期利润=7+3=10;而如果模仿低成本企业,选择p=5,则得到两期利润=6+7=13。因此p=6不是高成本在位者的最优选择243.5.4 3.5.4 信号传递博弈及其应用市场进入博弈求解(二)假定 1/2,得到混同均衡,两类在位者选择相同的价格给定进入者的后验概率和战略,如果高成本选择p=6,进入者进入,u1=7+3=10,如果选择p=5,进入者不进入,u1=6+7=13,p=5是高成本的最优选择;如果低成本选择p=5,u1=9+9=18,大于选择其他任何价格时的利润,p=5是低成本的最优选择。给定两类在位者都选择p=5,进入者不能从观测到的价格中得到任何新的信息,即后验概率=1*/(1*+1*(1-)=1/2,(式中的1分别为高成本、低成本时在位者选择p=5的概率)进入的期望利润*1+(1-)*(-1)=2-10,不进入的期望利润为0,因此不进入是最优的。253.5.4 3.5.4 信号传递博弈及其应用市场进入博弈求解(三)假定 1/2,得到分离均衡,两类在位者选择不同价格如果不同类型在位者选择相同的价格,进入者得不到新的信息,将选择进入,因为*1+(1-)*(-1)=2 -10。给定进入者一定会进入,在位者的最优选择是p=6(高成本)或p=5(低成本),前面已经证明不是一个均衡。给定进入者的后验概率和战略,低成本在位者选择p=6(认为他是高成本,进入),u1=8+5=13;选择p=5,进入者进入,u1=9+5=14;选择p=4,进入者不进入,u1=6+9=15,最优战略为p=4,进入者不进入。给定进入者的后验概率和战略,高成本在位者选择p=4,进入者不进入,u1=2+7=9;选择p=5,进入者进入,u1=6+3=9;选择p=6,进入者进入,u1=7+3=10,因此p=6是最优的。26课堂延伸趣味博弈:海盗分金币的博弈求解27
展开阅读全文