混合策略与随机行动概论课件

资源描述

路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索07 七月 2024混合策略与随机行动概混合策略与随机行动概论论路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索赛场路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索点球射门点球射门q攻方的策略是：攻左边，或攻右边攻方的策略是：攻左边，或攻右边q守方的策略是：守左边，或守右边（以守方的方向为准）守方的策略是：守左边，或守右边（以守方的方向为准）守守左边左边右边右边攻攻左边左边58，4295，5右边右边93，770，30混合策略提出混合策略提出得益：进球得分的百分比。根据得益：进球得分的百分比。根据1995-2000年间年间意大利、西班牙和英国最高联盟的数据意大利、西班牙和英国最高联盟的数据路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索就一次游戏而言，猜测对方的策略，就一次游戏而言，猜测对方的策略，保密保密自己的策略。自己的策略。在多次反复游戏中，避免任何的在多次反复游戏中，避免任何的倾向性和规律性倾向性和规律性。严格竞争博弈严格竞争博弈零和博弈零和博弈实实验验办法是将行动随机化。办法是将行动随机化。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索混合策略：混合策略：参与人在每一个给定信息的情况下以某种概率分布随机地参与人在每一个给定信息的情况下以某种概率分布随机地选择不同的行动。选择不同的行动。例如：乒乓球员以例如：乒乓球员以60的概率选择正手发球，的概率选择正手发球，40的概的概率选择反手发球。率选择反手发球。什么是纯策略？什么是纯策略？混合策略混合策略路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p如果你是踢球人如果你是踢球人,这两个纯策略中你更喜欢哪一种这两个纯策略中你更喜欢哪一种?（70）p你能不能做得更好你能不能做得更好?p 混合策略混合策略(1)以以50:50（抛硬币）的比例随机地选择左边或右边。（抛硬币）的比例随机地选择左边或右边。如果守门员选择左边，你混合策略成功的概率：如果守门员选择左边，你混合策略成功的概率：*58%+*93%=75.5%如果守门员选择右边，你混合策略成功的概率：如果守门员选择右边，你混合策略成功的概率：*95%+*70%=82.5%路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p50：50是你最佳混合策略吗是你最佳混合策略吗?p 混合策略混合策略(2)以以40:60（在你的口袋里放一本书，如果页眉最后一位（在你的口袋里放一本书，如果页眉最后一位数是数是1到到4选左，选左，0到到5则选右）的比例随机地选择左边则选右）的比例随机地选择左边或右边。或右边。如果守门员选择左边，你混合策略成功的概率：如果守门员选择左边，你混合策略成功的概率：0.4*58%+0.6*93%=79%如果守门员选择右边，你混合策略成功的概率：如果守门员选择右边，你混合策略成功的概率：0.4*95%+0.6*70%=80%路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p你的连续更优的混合策略比例就是如何使自己在守门你的连续更优的混合策略比例就是如何使自己在守门员选择左边时和选择右边的成功概率差距缩小。员选择左边时和选择右边的成功概率差距缩小。p587012p75.5%82.5%7.3p79%80%1pxy0p p 混合策略混合策略路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p不管守门员选择他的左边还是右边，你的最佳混合比不管守门员选择他的左边还是右边，你的最佳混合比例都会使你得到相等的成功率例都会使你得到相等的成功率p p 混合策略混合策略(3)以以x:1x的比例随机地选择左边或右边。的比例随机地选择左边或右边。如果守门员选择左边，你混合策略成功的概率：如果守门员选择左边，你混合策略成功的概率：x*58%+（1x）*93%如果守门员选择右边，你混合策略成功的概率：如果守门员选择右边，你混合策略成功的概率：x*95%+（1x）*70%两者相等，求得选两者相等，求得选x0.383路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p不管守门员选择他的左边还是右边，你的最佳混合比不管守门员选择他的左边还是右边，你的最佳混合比例都会使你得到相等的成功率例都会使你得到相等的成功率p p 混合策略混合策略(4)以以0.383:0.617的比例随机地选择左边或右边。的比例随机地选择左边或右边。如果守门员选择左边，你混合策略成功的概率：如果守门员选择左边，你混合策略成功的概率：0.383*58%+0.617*93%79.6如果守门员选择右边，你混合策略成功的概率：如果守门员选择右边，你混合策略成功的概率：0.383*95%+0.617*70%79.6路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p那么守门员的策略怎样？那么守门员的策略怎样？p混合策略纳什均衡混合策略纳什均衡?p 混合策略混合策略守门员的最佳策略是使踢球者选择左边和选择右边的成功守门员的最佳策略是使踢球者选择左边和选择右边的成功率相等的策略。率相等的策略。守门员应当分别以守门员应当分别以41.7和和58.3的比例选择自己的左边的比例选择自己的左边和右边，使踢球者成功的概率为和右边，使踢球者成功的概率为79.6%.路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p法则法则p 混合策略混合策略在纯冲突博弈（零和博弈）中，如果让你的对手事先看清在纯冲突博弈（零和博弈）中，如果让你的对手事先看清楚你的真实选择对你不利，那么你可以通过随机选择自己楚你的真实选择对你不利，那么你可以通过随机选择自己备选的纯策略而获益。你的混合比例应该是这样的：对手备选的纯策略而获益。你的混合比例应该是这样的：对手采取任何特定的备选纯策略，都不可能利用你的选择，采取任何特定的备选纯策略，都不可能利用你的选择，即，当你以混合策略对付他的混合策略中任一纯策略时，即，当你以混合策略对付他的混合策略中任一纯策略时，你得到的平均赢利都相等。你得到的平均赢利都相等。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索p实验抛硬币实验抛硬币p 怎样随机行动？怎样随机行动？抛硬币翻出正面之后再抛一次，这时出正面的可能性与抛抛硬币翻出正面之后再抛一次，这时出正面的可能性与抛出反面的可能性相等。出反面的可能性相等。无规律的随机行动（点名无规律的随机行动（点名4/18=22%,不点名不点名78）。）。例如：一个秘密的、足够复杂以致让人难以破解的规则。例如：一个秘密的、足够复杂以致让人难以破解的规则。举例：秘密举例：秘密路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索报案（报案（reporting a crime）n个人目睹一桩罪行，每个人都希望报警，个人目睹一桩罪行，每个人都希望报警，但是都倾向于其他人打电话。特别的，假定但是都倾向于其他人打电话。特别的，假定能从报警中得到能从报警中得到v单位的收益，而打电话的单位的收益，而打电话的人需要付出人需要付出c单位的成本，单位的成本，vc0。分析这。分析这个问题的纯战略个问题的纯战略NE和混合战略和混合战略NE。混合策略案例路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索分析：分析：参与人：参与人：n个个每个参与人的战略集：每个参与人的战略集：打电话，不打电话打电话，不打电话效用：没有任何人打，所有人效用：没有任何人打，所有人0支付；支付；打，打，v-c；不打，但其他人至少有一个人打，不打，但其他人至少有一个人打，v混合策略案例路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索纯战略纯战略NE当只有两个参与人的时候（公共产品提供的斗当只有两个参与人的时候（公共产品提供的斗鸡博弈）鸡博弈）两个两个NEn个人的时候：个人的时候：假设有假设有m个人提供，个人提供，m1 or m=1 n个个NE混合策略案例路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索混合策略案例混合战略混合战略NE 随着人数随着人数n的增加，的增加，p减小，即人越多，每减小，即人越多，每个人选择报案的概率就会越小，如果个人选择报案的概率就会越小，如果n1，则则p1社会心理学与博弈分析社会心理学与博弈分析路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索混合策略案例小孩玩的游戏“石头，剪子，布”，也是一种博弈。但是，这个博弈有一种有趣的特征，即给定一方的任何选择，另一方都有制胜对方的战略，所以，给定一方任何一个战略，对方都有制胜这个战略的战略，因而这个战略不是最优的。任何“纯战略”都不是最优的，纯战略是“石头，剪子，布”中的任何一个。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索但是，我们知道，玩这个游戏是总是以对方不易猜出的随机方式出招。事实上，可以通过数学证明，当双方都以每个战略按1/3的概率出招时，达成一种双方都不愿改变这种概率分布的局面。这被称为“混合战略纳什均衡”，而这种以随机方式选择纯战略的博弈被称为“混合战略博弈”。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索实验显示：“陷入无意识但仍可预测的模式”例如：官僚作风连续出“布”雪崩连续出石头排除策略省略一个随机：秘密的，足够复杂以至难以让人破解的规则随机：秘密的，足够复杂以至难以让人破解的规则路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索例子1 田忌赛马新编春秋战国时期，齐威王常与旗下大将田忌赛马。规则是：每次赛三局，每一局齐威王与田忌各出一匹马比赛奔跑速度。每一局中的胜者赢败方一千斤铜。田忌有上、中、下三匹马，而齐威王也有上、中、下三匹马。每次比赛，第一局田忌出上马，齐威王也出上马；第二局田忌出中马，齐威王也出中马；第三局，田忌出下马，齐威王也出下马。齐威王的上马比田忌的上马好，齐威王的中马也比田忌的中马好，齐威王的下马还是比田忌的下马好。于是，每次比赛的结果都是田忌连输三局。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索田忌的谋士孙膑了解了田忌的困境后，就打听到这样一个消息：尽管齐威王的上、中、下三匹马都要比田忌的对应上、中、下三匹马好，但碰巧的是田忌的上马可胜齐威王的中马，田忌的中马可胜齐威王的下马。于是，孙膑为田忌献计：下一次比赛中第一局时田忌出下马对齐威王的上马输一局，第二局田忌出上马对齐威王的中马，第三局田忌出中马对齐威王的下马，这样可连赢两局，最后净胜一千斤铜。田忌依计而行，果真赢回一千斤铜。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索这个故事曾经被很多人当作博弈论的例子来演绎，但实际上这个故事与博弈论无关。博弈论会假定所有局中人都是理性的，不能假定一些局中人聪明而另一些局中人却是傻子。当田忌出下马时，齐威王最好的选择是出下马而不是上马。孙膑的计谋中假定齐威王是傻子，当田忌出下、上、中马时，他仍然按上、中、下马出，当然要输了。事实上，当田忌出下马时，齐威王应出下马，但齐威王出下马时，田忌不应出下马而是出中马，但此时齐威王又应出中马而不是下马了，。这样，博弈不会有纯战略的均衡。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索两人只能玩混合战略博弈，齐威王分别以1/6随机的概率选择出上、中、下马的任一排列，田忌也如此。由于齐威王存在绝对优势，他平均看来仍然会赢田忌一千斤铜。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索例子2 如果曹操与诸葛亮一样聪明：三国演义中的华容道博弈在三国演义中，曹操在赤壁大战中一败涂地，率残兵败将向许都方向逃窜。诸葛亮命关羽率兵在途中阻截曹军。当时，第一批拦截大军是赵云率领的，第二批拦截大军是张飞带队的，第三批才是关羽率部伏击。由于曹军兵多将广，前二批伏击军不能逮住曹操，只是抢劫一些军械马匹之类。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索待曹军冲过赵云、张飞两道关后，进入关羽的伏击地带。但是，当时关羽与曹操相遇的地方有两条道，一条是华容道，除此外还有另一条道。诸葛亮令关羽伏兵于华容道，并且要求关羽在华容道上点燃树枝冒出烟雾引曹操到来。当时关羽不解，问诸葛亮，“如果在伏兵之处点火，岂不令曹兵看见而改走另一条道逃脱？”诸荀亮叫关羽不要再问，只如此照办即可。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索当曹操冲破赵云、张飞的阻截后，来到华容道前，看见华容道上静悄悄的，但有烟火萦绕。曹操大笑道：“孔明以为我会上他的当，故意叫人在华容道上点火让我走另一条道，而他却伏兵于这条道上好逮住我呢！我偏不上他的当！”于是，曹操令大军径直上华容道上而去，结果与关羽大军撞个正着。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索曹操为何进了孔明的圈套呢？这里的道理是这样的：孔明知道曹操是聪明人，而聪明人见华容道上有烟火会认为华容道上有伏兵，于是会避开华容道而走另一条路。如果孔明令关羽在另一条路等着，曹操就被逮住了。但是，曹操不仅聪明，而且还聪明过人，他也知道孔明的如此盘算来诱他上钩，他偏不上当，知道点火的华容道上无人，孔明的队伍在另一条道上呢！于是他选择走华容道。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索但是，依三国演义作者罗贯中的逻辑，孔明总是比曹操计高一筹，按博弈论的术语来说，就是孔明的理性程度要比曹操高上一阶。孔明也知道曹操知道孔明的打算，于是令关羽正好在点火的华容道上等着曹操。三国演义中的这个故事很可能是作者编造的，因为在三国志中并无这一情节。这里，罗贯中假设了曹操在智力上比孔明差一些，才有华容道上被关羽抓住，要不是关羽旧情难忘，曹操就死无葬身之地了。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索但是，如果我们不假定曹操比孔明要笨一些，而是相反假定曹操与孔明一样聪明，则曹操又知道孔明知道曹操知道孔明的打算，曹操就会知道关羽在华容道上等着他呢？此时曹操就避开华容道走另一条路。但是，这还没有完，因为若孔明知道曹操知道孔明知道。显然，最终的结果是曹操与孔明玩混合战略博弈，曹操随机地以1/2的概率选择走华容道和另一条路，孔明也以1/2的概率令关羽守华容道或另一条路。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索于是，三国演义中的这一情节就应作如下改写：诸葛亮抛出一枚硬币，决定关羽是守华容道呢还是另一条道，而曹操也掷出一枚硬币，决定是走华容道呢还是走另一条路。平均看来，曹操有1/2的概率逃脱，而关羽也只有1/2的概率抓住曹操。如果说关羽在华容道上抓住了曹操，则纯属偶然、并非孔明比曹操计高一筹所致！路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索剪刀-石头-布爬楼梯游戏策略，石头、剪子、布布获胜，向上爬5个台阶剪刀获胜，向上爬2个台阶石头获胜，向上爬1个台阶平局，再来一遍第一个爬上楼梯的是获胜者路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索商业与其他对抗中的混合策略商界、政界和战争非零和博弈路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索商业与其他对抗中的混合策略例如：折扣券博弈问题路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索商业与其他对抗中的混合策略例1：折扣券博弈问题目的？1、都不发行2、都发行3、一个发行，另一个不发行如何占得先机？路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索商业与其他对抗中的混合策略如何占得先机？避免他人占得先机，唯一的途径就是保持出人意料的元素。这一元素源于随机化策略的应用但是：独立随机选择有“出错”的危险。进行合作！路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索商业与其他对抗中的混合策略可口可乐和百事可乐52个星期，分别发放26周优惠券没有出现两家同时的情况计算：如果两家独立以50概率随机选择任何一周发放优惠券，那么他们各自发放26周而不会出现同时发放的概率是1/10005(10亿的10亿次方)路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索延伸：联合营销麦当劳与可口可乐，肯德基与百事可乐从美国相携走向全球，许多大的跨国企业均与知名连锁酒店、供应商保持全球的合作体系，令人慨叹中国的许多企业尽管躯体庞大，但在经营的思想和理念上与它们相去甚远。辜鸿铭曾用西文出版过一本书，书名为中国人的精神，其中将中国人的民族性格归结为三大特征：“deep,bright,simple”，译成中文是“深沉、聪明、淳朴”。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索延伸：联合营销深沉就是含而不露，静水流深，但这种性格与联盟的阳光与规则的透明背道而驰。聪明更多是为人为事的创造力与洞察，但似乎缺少更大气的哲学和价值观思考，这样也不利于建立通用的制度规则，大家思考的更多是彼此之间的利益而非联盟共事致力追求的长远目标这也是战国时期秦国以连横成功打破六国合纵政策的原因所在。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索例2：飞机折扣票博弈航空公司告诉你折扣，不告诉你剩余的空位你随机选择时点进行订票路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索V，-D-P，00，S0，0睡睡不睡不睡偷偷不偷不偷守卫守卫小小偷偷混合战略：混合战略：守卫以守卫以n概率选择睡觉，以概率选择睡觉，以1m的概率选择不睡的概率选择不睡小偷以小偷以m概率选择偷，以概率选择偷，以1n概率选择不偷概率选择不偷例4 监督博弈路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索加重对守卫的处罚：短期中的效果是使守卫真正尽职加重对守卫的处罚：短期中的效果是使守卫真正尽职在长期中并不能使守卫更尽职，但会降低盗窃发生的概率在长期中并不能使守卫更尽职，但会降低盗窃发生的概率0-D-D守卫守卫得益得益(睡睡)S小偷小偷偷的概率偷的概率1激励悖论Sm路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索加重对小偷的处罚：短期内能抑制盗窃发生率加重对小偷的处罚：短期内能抑制盗窃发生率长期并不能降低盗窃发生率，但会使得守卫更多的偷懒长期并不能降低盗窃发生率，但会使得守卫更多的偷懒0-P-P小偷小偷得益得益(偷偷)V守卫守卫睡的概率睡的概率1n激励悖论路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索例5 为什么一般人总是小错不断，大错不犯；偷税漏税的一般是中小企业，大企业会老老实实地交税？税务部门不会对所有企业的交税情况每一次都去检查，因为这样做的成本太高，得不偿失。所以，税务部门总是随机地对企业的交税情况进行检查。路漫漫其修远兮路漫漫其修远兮,吾将上下而求索吾将上下而求索企业也是随机地在交税与偷漏税之间进行选择。税收部门与企业间进行的是混合战略博弈。因为如果企业总是交税，税务部门就最好不检查；但给定不检查，企业就会偷漏税。所以，两者只有在随机地检查与不检查，企业随机地在偷漏税与交税之间选择，才会达成均衡。

展开阅读全文

混合策略与随机行动概论课件

最新文档