重复博弈课件_装配图网

资源描述

重复博弈第四章第四章重复博弈重复博弈本章介绍基本博弈重复进行构成的重复博弈。虽然形本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行，但重复博弈中博弈方的行为式上是基本博弈的重复进行，但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复，因为博弈方和博弈结果却不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发生对于博弈会重复进行的意识，会使他们对利益的判断发生变化，从而使他们在重复博弈过程中的行为选择受到影响。变化，从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加，必须这意味着不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。把整个重复博弈过程作为整体进行研究。重复博弈本章主要内容本章主要内容F4.1 重复博弈引论重复博弈引论F4.2 有限次重复博弈有限次重复博弈F4.3 无限次重复博弈无限次重复博弈重复博弈4.1 4.1 重复博弈引论重复博弈引论4.1.1 为何研究重复博弈为何研究重复博弈4.1.2 基本概念基本概念重复博弈4.1.1 4.1.1 为何研究重复博弈为何研究重复博弈v经济中的长期关系经济中的长期关系v人们的预见性人们的预见性v未来利益对当前行为的制约未来利益对当前行为的制约例如：例如：长期合同、回头客、常客等。长期合同、回头客、常客等。把这种关系理解成重复博弈，显然比理解成复杂的把这种关系理解成重复博弈，显然比理解成复杂的长期动态博弈更能反映问题的实质。长期动态博弈更能反映问题的实质。重复博弈4.1.2 4.1.2 基本概念基本概念v有限次重复博弈：有限次重复博弈：给定一个基本博弈给定一个基本博弈G G（可以是静态博弈，可以是静态博弈，也可以是动态博弈），重复进行也可以是动态博弈），重复进行T T次次G G，并且在每次重复并且在每次重复G G之前各博弈方都能观察到以前博弈的结果，这样的博弈过之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为程称为“G G的的T T次重复博弈次重复博弈”，记为，记为G(T)G(T)。而。而G G则称为则称为G(T)G(T)的的“原博弈原博弈”。G(T)G(T)中的每次重复称为中的每次重复称为G(T)G(T)的一个的一个“阶阶段段”。v无限次重复博弈：无限次重复博弈：一个基本博弈一个基本博弈G G一直重复博弈下去的博一直重复博弈下去的博弈，记为弈，记为G()G()。v还有一种还有一种“随机结束的重复博弈随机结束的重复博弈”。重复博弈 v策略：策略：博弈方的一个策略就是在博弈方的一个策略就是在每个阶段每个阶段（即每次（即每次重复）针对每种情况如何行为的计划。重复）针对每种情况如何行为的计划。v子博弈：子博弈：从某个阶段（不包括第一阶段）开始，包从某个阶段（不包括第一阶段）开始，包括此后所有阶段的重复博弈部分。括此后所有阶段的重复博弈部分。v均衡路径：均衡路径：由每个阶段博弈方的行为组合串联而成。由每个阶段博弈方的行为组合串联而成。重复博弈重复博弈的得益重复博弈的得益的平均得益。为相同的现在值，则称得益序列阶段的得益，能产生与无限次重复博弈）各个重复博弈或作为重复博弈（有限次：如果一常数，,2121平均得益11)1 (ttt虑贴现问题无限次重复博弈必须考考虑贴现因素。有限次重复博弈不一定考虑重复博弈总体得益的情况的方法之一是计算重复博考虑重复博弈总体得益的情况的方法之一是计算重复博弈的弈的“总得益总得益”，即各博弈方各次重复得益的总和。，即各博弈方各次重复得益的总和。另一种方法是计算另一种方法是计算“平均得益平均得益”。重复博弈4.2 4.2 有限次重复博弈有限次重复博弈4.2.1 两人零和博弈的有限次重复博弈两人零和博弈的有限次重复博弈4.2.2 唯一纯策略纳什均衡博弈的有限次重复博弈唯一纯策略纳什均衡博弈的有限次重复博弈4.2.3 多个纯策略纳什均衡博弈的有限次重复博弈多个纯策略纳什均衡博弈的有限次重复博弈4.2.4 有限次重复博弈的民间定理有限次重复博弈的民间定理重复博弈4.2.1 4.2.1 两人零和博弈的有限次重复博弈两人零和博弈的有限次重复博弈v零和博弈零和博弈是严格竞争的，重复博弈并不改变这一点。是严格竞争的，重复博弈并不改变这一点。v以零和博弈为原博弈的有限次重复博弈与猜硬币博以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样，博弈方的正确策略是重弈的有限次重复博弈一样，博弈方的正确策略是重复一次性博弈中的纳什均衡策略。复一次性博弈中的纳什均衡策略。重复博弈4.2.2 4.2.2 唯一纯策略纳什均衡博弈的唯一纯策略纳什均衡博弈的有限次重复博弈有限次重复博弈v定理：设原博弈定理：设原博弈G G有唯一的纯策略纳有唯一的纯策略纳什均衡什均衡, ,则对任意整数则对任意整数T T，重复博弈，重复博弈 G(T)G(T)有唯有唯一的子博弈完美纳什均衡，一的子博弈完美纳什均衡，即各博弈方每个阶段都采用即各博弈方每个阶段都采用G G的纳什的纳什均衡策略。各博弈方在均衡策略。各博弈方在G(T)G(T)中的总中的总得益为在得益为在G G中得益的中得益的T T倍，平均得益倍，平均得益的与原博弈的与原博弈G G中的得益。中的得益。-5，-50，-8-8，0-1，-1坦坦白白不坦白不坦白囚徒囚徒2坦坦白白不坦白不坦白囚囚徒徒1（-5，-5）-10，-10-13，-5-5，-13-6，-6坦坦白白不坦白不坦白囚徒囚徒2坦坦白白不坦白不坦白囚囚徒徒1（-10，-10）重复博弈有限次重复削价竞争博弈有限次重复削价竞争博弈100，100 20，150150，2070，70高高价价低低价价高价高价低价低价寡头寡头2寡寡头头1削价竞争博弈削价竞争博弈有唯一纯策略纳什均衡有唯一纯策略纳什均衡（70，70）有限次重复的结果仍然是有限次重复的结果仍然是（低价，低价）（低价，低价）重复博弈连锁店悖论连锁店悖论（塞尔顿（塞尔顿1978年提出）年提出）BA(1,10)(-2,3)(5,5)打进打进不进不进打击打击不打击不打击重复博弈4.2.3 4.2.3 多个纯策略纳什均衡博弈的多个纯策略纳什均衡博弈的有限次重复博弈有限次重复博弈5，53，32，00，22，06，00，20，61，1HMH厂商厂商2ML厂厂商商1L三价博弈三价博弈2，23，13，11，34，47，11，31，78，8厂厂商商1厂商厂商2LMHHML两次重复三价博弈的等价模型两次重复三价博弈的等价模型触发策略：触发策略：两博弈方先试探合作，一旦发现对方不合作，则也用不合作报复两博弈方先试探合作，一旦发现对方不合作，则也用不合作报复博弈方博弈方1 1：第一次选第一次选H H；如第一次结果为；如第一次结果为(H,H)(H,H)，则第二次选，则第二次选M M，否则选，否则选L L博弈方博弈方2 2：同博弈方同博弈方1 1重复博弈两市场博弈的重复博弈（重复两次）两市场博弈的重复博弈（重复两次）v(A,B)+(A,B) OR (B,A)+(B,A)(1,4)(4,1)(A,B)+(A,B) OR (B,A)+(B,A)(1,4)(4,1)v连续两次采用混合策略连续两次采用混合策略(2,2)(2,2)v(A,B)+(B,A) OR (B,A)+(A,B)(2.2,2.5)(A,B)+(B,A) OR (B,A)+(A,B)(2.2,2.5)轮换策略轮换策略v一次纯策略一次纯策略+ +一次混合策略一次混合策略(1.5,3)(3,1.5)(1.5,3)(3,1.5)0，04，11，43，3厂厂商商1厂商厂商2BAAB两市场博弈两市场博弈重复博弈重复博弈不同策略、均衡及一次性博弈得益比较重复博弈不同策略、均衡及一次性博弈得益比较不同策略组合、均衡得益图示不同策略组合、均衡得益图示厂商2得益厂商1得益(1,4)(3,3)(2.5,2.5)(2,2)(3,1.5)(4,1)(1.5,3)重复博弈重复三次的触发策略：重复三次的触发策略：v厂商厂商1：第一阶段选第一阶段选A；如果第一阶段结果是（；如果第一阶段结果是（A，A），则），则第二阶段选第二阶段选A，如果第一阶段结果是（，如果第一阶段结果是（A，B），则第二阶段），则第二阶段选选B；第三阶段无条件选；第三阶段无条件选B。v厂商厂商2：第一阶段选第一阶段选A，第二阶段无条件选，第二阶段无条件选B，如果第一阶段，如果第一阶段结果是（结果是（A，A），则第二阶段选），则第二阶段选A；如果第一阶段结果是；如果第一阶段结果是（B，A），则第三阶段选），则第三阶段选B。v根据双方的上述策略，根据双方的上述策略，3次重复博弈的均衡路径是（次重复博弈的均衡路径是（A，A）到（到（A，B）再到（）再到（B，A）。）。v平均得益为平均得益为2.67 。重复博弈4.2.4 4.2.4 有限次重复博弈的民间定理有限次重复博弈的民间定理v个体理性得益：个体理性得益：不管其它博弈方行为如何，不管其它博弈方行为如何，一博弈方在某个博弈中只要自己采取某种一博弈方在某个博弈中只要自己采取某种特定的策略，最低限度保证能获得的得益。特定的策略，最低限度保证能获得的得益。v可实现得益：可实现得益：博弈中所有纯策略组合得益博弈中所有纯策略组合得益的加权平均数组。的加权平均数组。v定理：定理：设原博弈的一次性博弈有均衡得益设原博弈的一次性博弈有均衡得益数组优于数组优于w，那么在该博弈的多次重复中，那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益，所有不小于个体理性得益的可实现得益，都至少有一个子博弈完美纳什均衡的极限都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们的平均得益来实现它们。厂商2得益厂商1得益(1,4)(3,3)(1，1)(4,1)w=(1.1)重复博弈4.3 4.3 无限次重复博弈无限次重复博弈F4.3.1 两人零和博弈的无限次重复博弈两人零和博弈的无限次重复博弈F4.3.2 唯一纯策略纳什均衡博弈唯一纯策略纳什均衡博弈的无限次重复博弈的无限次重复博弈F4.3.3 无限次重复古诺模型无限次重复古诺模型F4.3.4 有效工资率有效工资率重复博弈4.3.1 4.3.1 两人零和博弈的无限次重复博弈两人零和博弈的无限次重复博弈两人零和博弈无限次重复的所有阶段都不可能发生两人零和博弈无限次重复的所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均合作，博弈方会一直重复原博弈的混合策略纳什均衡。衡。重复博弈4.3.24.3.2唯一纯策略纳什均衡博弈唯一纯策略纳什均衡博弈的无限次重复博弈的无限次重复博弈两寡头削价竞争博弈两寡头削价竞争博弈该博弈一次性博弈均衡是都采用低价，是囚徒困境型博弈。该博弈一次性博弈均衡是都采用低价，是囚徒困境型博弈。4，40，55，01，1HLHL寡头寡头2寡寡头头 1重复博弈无限次重复两寡头削价博弈无限次重复两寡头削价博弈触发策略：触发策略：第一阶段采用第一阶段采用H H，如果前，如果前t-1t-1阶段的结果都是阶段的结果都是(H,H)(H,H)，则继续采用，则继续采用H H，否则采用，否则采用L L。如果博弈方如果博弈方2 2采用采用L L，总得益现值为，总得益现值为如果博弈方如果博弈方2 2采用采用H H，总得益现值为，总得益现值为v因此，当因此，当V V 时，即当时，即当时时此触发策略构成子博弈完美纳什均衡策略。此触发策略构成子博弈完美纳什均衡策略。151152VV 44/1重复博弈无限次重复博弈的民间定理无限次重复博弈的民间定理厂商2得益厂商1得益(1,4)(3,3)(1,1)(4,1)(5,0)(5,0),(),(1),(),(11niininxxGiexGxxGeeG均得益为什均衡，各博弈方的平完美纳中一定存在一个子博弈次重复博弈，那么无限足够接近都成立，而对任意博弈方果的任意可实现得益。如表示用的纳什均衡的得益，记的静态博弈。用是一个完全信息理：设无限次重复博弈民间定重复博弈4.3.3 4.3.3 无限次重复古诺模型无限次重复古诺模型假定：假定：，边际成本都为，边际成本都为2。在无限次重复古诺模型中，当贴现率在无限次重复古诺模型中，当贴现率满足一定条件时，满足一定条件时，两厂商采用下列触发策略构成一个子博弈完美纳什均衡：两厂商采用下列触发策略构成一个子博弈完美纳什均衡：在第一阶段生产垄断产量的一半在第一阶段生产垄断产量的一半1.5；在第；在第 t 阶段，如果前阶段，如果前 t-1 阶段结果都是阶段结果都是(1.5,1.5)，则继续生产，则继续生产1.5，否则生产古诺产，否则生产古诺产量量2。 21,8qqQQP其中重复博弈设厂商设厂商1已采用该触发策略，若厂商已采用该触发策略，若厂商2也采用该触发策略，也采用该触发策略，则每期得益则每期得益4.5，无限次重复博弈总得益的现值为：，无限次重复博弈总得益的现值为：如果厂商如果厂商2偏离上述触发策略，则他在第一阶段所选产量偏离上述触发策略，则他在第一阶段所选产量应为给定厂商应为给定厂商1产量为产量为1.5时，自己的最大利润产量，即满足：时，自己的最大利润产量，即满足：解得解得，此时利润为，此时利润为5.0625，高于触发策略第一，高于触发策略第一阶段得益阶段得益4.5。15 . 415 . 4222225 . 4max25 . 18max222qqqqqqq25. 22q重复博弈但从第二阶段开始，厂商但从第二阶段开始，厂商1将报复性地永远采用古诺产将报复性地永远采用古诺产量量2，这样厂商，这样厂商2也被迫永远采用古诺产量，从此得利润也被迫永远采用古诺产量，从此得利润4。因此，无限次重复博弈第一阶段偏离的情况下总得益的现值因此，无限次重复博弈第一阶段偏离的情况下总得益的现值为：为：当当上述策略是厂商上述策略是厂商2对厂商对厂商1的同样触发策略的最佳反应，的同样触发策略的最佳反应，当当9/179/17时，时，偏离是厂商偏离是厂商2的最佳反应。的最佳反应。 140625. 540625. 52179140625. 515 . 4即重复博弈 v从上述分析中，我们可以找到为什么通货膨胀严重从上述分析中，我们可以找到为什么通货膨胀严重的国家的企业在经济活动中短期行为更为严重的一的国家的企业在经济活动中短期行为更为严重的一种种理论根源：理论根源：v因为通货膨胀率越高，未来利益的折算成现在值的因为通货膨胀率越高，未来利益的折算成现在值的贴现系数就越低，企业就越是重视当前利益而不重贴现系数就越低，企业就越是重视当前利益而不重视长期利益。视长期利益。重复博弈4.3.4 4.3.4 有效工资率有效工资率模型设定：模型设定：首先厂商选择工资率为首先厂商选择工资率为，然后工人选择接受或，然后工人选择接受或拒绝。如果拒绝，则他作个体户得到收入拒绝。如果拒绝，则他作个体户得到收入小于小于，如果接受如果接受，则工人选择努力工作（负效用，则工人选择努力工作（负效用）还）还是偷懒（无负效用）。是偷懒（无负效用）。厂商只能看到产量高低，高产量为厂商只能看到产量高低，高产量为，低产量，低产量0。工人努力工作时一定是高产量工人努力工作时一定是高产量，不努力时却并，不努力时却并不一定是不一定是0，而是高产量，而是高产量的概率为的概率为，低产量，低产量0的的概率为概率为。工人努力工作时，厂商得益为工人努力工作时，厂商得益为，工人得益，工人得益为为；工人偷懒时，厂商期望得益为工人偷懒时，厂商期望得益为，工人得益为工人得益为。w0wwwe0yyypp1wy ewwpyw重复博弈考虑如下的触发策略考虑如下的触发策略：厂商在第一阶段给工资率厂商在第一阶段给工资率，在第，在第t阶段，如果前阶段，如果前面面t-1阶段结果都是阶段结果都是则继续给则继续给，否则从此永，否则从此永远是远是。工人的策略是如果工人的策略是如果则接受，否则宁愿作则接受，否则宁愿作个体户得到个体户得到，并在以前各期结果都是，并在以前各期结果都是和当和当前工资率为前工资率为时努力工作，否则偷懒。时努力工作，否则偷懒。设厂商已采用上述触发策略。由于设厂商已采用上述触发策略。由于，工人，工人接受工作是最佳反应。用接受工作是最佳反应。用记工人努力工作时无限记工人努力工作时无限次重复博弈得益的现值，则次重复博弈得益的现值，则即即*w),(*yw*w0w0ww 0w),(*yw*w0*ww eVeeVewV)(*)1 ()(*ewVe重复博弈用用记工人选偷懒时无限重复博弈得益的现值，记工人选偷懒时无限重复博弈得益的现值，则：则：即即因此当因此当即即时，努力是工人的最佳选择。时，努力是工人的最佳选择。反过来，设工人已采用上述触发策略。若厂商反过来，设工人已采用上述触发策略。若厂商给的工资率满足上式条件，并且威胁一旦产量降低给的工资率满足上式条件，并且威胁一旦产量降低就解雇工人，则各阶段的得益为就解雇工人，则各阶段的得益为，无限次重，无限次重复博弈得益现值为复博弈得益现值为。若不愿给若不愿给，则解雇工人，以后得益为，则解雇工人，以后得益为0。因此只。因此只要要，厂商选择前述触发策略就是最佳反，厂商选择前述触发策略就是最佳反应。应。 sV)1)1 (0*wppVwVss)1 ( )1 ()1 ()1 (0*pwpwVsseVV epeweppww)1 (1)1 (100*wy )1 ()(*wy*w0*wy重复博弈综上所述，在满足综上所述，在满足的条件下，双方的触发策略构成一个纳什均衡。而的条件下，双方的触发策略构成一个纳什均衡。而上述两式实际上意味着上述两式实际上意味着即工人努力的产出扣除努力负效用后的剩余，必须即工人努力的产出扣除努力负效用后的剩余，必须不小于工人作个体户的收入即机会成本，加上一定不小于工人作个体户的收入即机会成本，加上一定比例的取决于努力负效用、贴现系数和偷懒可能得比例的取决于努力负效用、贴现系数和偷懒可能得高产量概率的附加部分。高产量概率的附加部分。最后这个不等式正是存在有效工资率，工作激励最后这个不等式正是存在有效工资率，工作激励有效的基本条件。有效的基本条件。epewwwy)1 (100*和epwey)1 (10重复博弈 END

展开阅读全文

重复博弈课件

最新文档