资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,博弈策略的生活解读,主讲人:黄春建,电话:,18639715222,走近博弈论,对于许多非数学专业和经济学专业人士来说,博弈论应该是一个极为陌生的概念。但在国外,博弈论作为现代经济学的前沿领域,已成为占据主流的基本分析工具之一。,博弈之道是古已有之,但博弈思想的系统化、数学化却是近几十年发展起来的。正是因为博弈科学是一门新学科,我国管理界、经济界对博弈论与信息经济学的研究还是停留在引进介绍层面上,他们发表的成果大多是堆砌庞杂的数学算法与令人眩目的数学模型。,我们学习博弈的目的就是通过博弈相关知识及著名的博弈案例,诸如囚徒困境、智猪博弈、斗鸡博弈等等,研究人们如何进行决策,以及这种决策如何达到均衡的问题。每个博弈者在决定采取何种行动时,不但要根据自身的利益和目的行事,还必须考虑到他的决策行为对其他人的可能影响,以及其他人的反应行为的可能后果,通过选择最佳行动计划,来寻求收益或效用的最大化。这门课在一定程度上,是为了提高在校大学生感性认识和理性认识的融合,明白做人做事的道理,掌握分析和处理一些事情的方法和技巧。,一、博弈基础知识,博弈的定义:一些个人、团队或其他组织,面对一定的环境条件、在一定的规则约束下,依靠所掌握的信息,同时或先或后,一次或多次,从各自允许选择的行为或策略进行选择并加以实施,并从中各自取得相应结果或收益的过程。,博弈的构成要素:,1,、博弈要有,2,个或,2,个以上的参与者(,Player,)。,2,、博弈要有参与各方争夺的资源或收益(,Resources,或,Payoff,)。,3,、参与者有自己能够选择的策略(,Strategy,)。,4,、参与者拥有一定量的信息(,Information,)。,博弈的分类:,1,、分为合作博弈与非合作博弈。如果各博弈方能达成某种有约束力的契约或默契,以选择共同的策略,此种博弈就是合作博弈。反之,就属于非合作博弈。,2,、分为零和博弈、常和博弈与变和博弈。零和博弈指的是所有博弈方的得益总和为零。常和博弈则是指所有博弈方的得益总和等于非零的常数。变和博弈则是指随着博弈参与者选择的策略不同,各方的得益总和也不同。,3,、分为静态博弈与动态博弈。所有博弈方同时或可看作同时选择策略,采取行动的博弈是静态博弈。,4,、,分为完全信息博弈与不完全信息博弈。,纳什均衡,定义:在给定别人最优的情况下,自己最优选择达成的均衡。,假设有,n,个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的 最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己利益最大化。所有局中人策略构成一个策略组合(,Strategy Profile,)。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡,从实质上说,是一种非合作博弈状态。,纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,以下的囚徒困境就是一个例子。,二、囚徒困境,两个共同偷窃的犯罪嫌疑人甲和乙被带进警察局。警方对两名犯罪嫌疑人实行隔离关押,隔离审讯,每个犯罪嫌疑人都无法观察同伴的选择。,警方怀疑他们作案,但手中并没有掌握确凿证据,于是明确地分别告知两名犯罪嫌疑人:对他们犯罪事实的认定及相应的量刑完全取决于他们自己的供认。如果其中一方坦白,而另一方抵赖,供认方将不受惩罚,无罪释放,另一方会被重判,10,年;如果双方都供认,各被判,5,年;而如果双方均不认罪,因为警方找不到其他证据,则无罪释放。,乙抵赖,乙供认,甲抵赖,二人无罪释放,甲判,10,年,乙无罪释放,甲供认,甲无罪释放,乙判,10,年,甲乙各判,5,年,体现囚徒困境基本精神,背叛,形成囚徒困境的机制,担心自己成为傻瓜(处于囚徒困境时,两害相权取其轻),启示:,囚徒困境这个模型,几乎是博弈论的代名词。两个基于“坦白从宽,抗拒从严”审讯的囚徒,从理性的角度出发,会产生怎样的结局?结果却是,从个人理性并追求个人利益最大化,那么二人皆坦白,也就是背叛。这在四种策略中并不占优,那为什么不采用集体最优策略而合作呢?很简单的集体优化,必然侵害个人利益的最大化。当然这一切前提是理性假设,也就是著名的经济人假设:经济学中的人都是“小人”(管理学则认为人是“君子”)。破解这一困境的途径则是打破信息孤立,而执法者的反制则是维持孤立或者加强威胁。无论背叛还是合作,谁在这里面坚持到最后,谁将取胜。,三、重复博弈,合作的开始,重复博弈是一种特殊的博弈,在博弈中,同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(,stage games,)。在每个阶段博弈中,参与人可能同时行动,也可能不同时行动。因为其他参与人过去的行动的历史是可以观测的,因此在重复博弈中,每个参与人可以使自己在每个阶段选择的策略依赖于其他参与人过去的行为。,对未来的预期是影响我们行为的重要因素。一种是预期收益:我这样做,将来有什么好处;一种是预期风险:我这样做可能将来面临,什么,问题。这都将影响个人的策略。,资深的博弈论专家罗伯特,-,奥曼在,1959,年指出,,人与人的长期交往是避免短期冲突、走向协作的重要机制。,在现实环境中,存在着一些道德因素,可以化解个人理性与群体理性的矛盾,维系整个社会的稳定。,有限次的囚徒困境情况不同于无限次的囚徒困境的重复博弈。当临近博弈的终点时,采取不合作策略的可能性加大。,即使参与人以前的所有策略均为合作策略,如果被告知下一次博弈是最后一次,那么肯定采取不合作的策略。,所以要是博弈终点不确定性,只要,存在继续合作的机会,背叛就会被抑制。,无名氏定理:博弈中双方合作时得益最大,但若一方不遵守合作约定,必定是另一方合作者吃亏。所以需要引入惩罚机制:谁违约,就要处罚他,使他不敢违约。博弈一方之所以会与另外一位合作,只是因为他知道,如果他今天被骗,明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无名氏定理”,启示:,每一次人际交往其实都可以简化为两种基本选择:合作还是背叛。在人际交往中普遍存在囚徒困境:明知合作能带来双赢,但理性的自私和信任的缺乏导致合作难以产生。而且,如果博弈是一次性,那么必然加剧双方进行“坦白”的决心,选择相互背叛。而现实生活中反复交往的人际关系,则是一种“不定次数的重复博弈”。在较长的视野内,人与人交往关系的重复造成“低头不见抬头见”的关系,可以使交往主体之间走向合作。,4,、一报还一报,人际交往个体原则,重复博弈理论上导致了合作的产生,但是谁也不能保证合作的继续,合作的代价是建立在对方背叛的风险之上的。如果个人放弃未来收益或当前背叛收益大于未来收益,背叛的风险仍然存在。哪么在重复博弈怎样的策略才是最优。经过若干科学家在计算机,PK,后,及其原始的“以牙还牙”策略脱颖而出,固然这个策略简单至极,其威力却无穷,以至于人们在推捧这一策略的后发现,这一策略有其可怕性。一旦某个环节出现背叛,据此原则行事的博弈将永无休止背叛下去。所以我们又设计了修正的一报还一报策略,作为人际关系中的指导。,生活中有很多事情,法律和道德不好约束,美国密西根大学学者罗伯特,爱克斯罗德提出了一报还一报策略。他是一个政治科学家,研究方向是人与人之间的合作关系。,研究前提:一、每个人都是自私的;二、没有权威干预个人决策。研究的问题,:,一、人为什么要合作。二、人什么时候合作、什么时候不合作。三、如何使别人与你合作。,一报还一报策略优点:,1,、,善良,,是指它第一部总是向对方表达善意。它坚持永远不首先背叛对方,开始总是选择合作,而不是一开始就选择背叛或主动作弊。,2,、,可激怒,,是指对方出现背叛行动时,它能够及时识别并一定要采取背叛的行动来报复,不会让背叛者逍遥法外。,3,、,宽容,,是指它不会因为别人一次背叛,长时间怀恨在心或者没完没了的报复,而是在对方改过自新、重新回到合作轨道时,能既往不咎的恢复合作。,4,、,简单,,是指它的逻辑清晰,易于识别,能让对方在较短时间内辨别出来其策略所在。,5,、,不妒忌,,是指它不耍小聪明,不占对方便宜,不在任何双边关系中争强好胜。,一报还一报策略应用于现实社会的缺陷:由于现实中的人会有误会的存在,一报还一报应用于现实社会主要由两个缺陷:,一是太容易激发背叛;二是它缺少一个宣布“到此为止”的机制。,如何克服:在“在一在二不在三”的原则下,采用修正的一报还一报策略,一是宽大的一报还一报,即以一定的概率不报复对方的背叛;二是悔过的一报还一报,即以一定的概率主动停止背叛。,处事哲学:以直报怨(摈弃以德报怨和以怨报怨),对于正在恋爱中的人们来说,获得幸福爱情的博弈原则应该是:,(,1,)善意而不是恶意的对待恋人。这个道理很简单了,无须多说。(,2,)宽容而不是尖刻地对待恋人。幸福的恋人可能并不是忠贞不二的,当然也肯定不是见异思迁的,他们能够生活得愉快,关键是能够彼此宽容,既宽容对方的缺点,甚至也宽容他偶尔的不忠贞。而尖刻地对待恋人的人,对恋人的偶尔不忠贞总是不肯迁就的人,往往也都不会幸福。,(,3,)强硬而不是软弱地对待恋人。就是要在我永远爱你的善意的前提下,做到有爱必报,有恨也必报,以眼还眼,以牙还牙,以其人之道,还治其人之身。这其中,当然是要有限度和分寸的。比如对恋人与其他异性的亲热行为,要有极其强烈的敏感与斩钉截铁地回报,当然,每次发脾气都是有限度的,而且还要能宽容对方。(,4,)简单明了而不是山环水绕地对待恋人。爱克斯罗德的实验证明,在博弈过程中,过分复杂的策略使得对手难于理解,无所适从,因而难以建立稳定的合作关系。,其实,恋爱只是一个例子,在生活中的各种各样的人类交往中,修正的一报还一报策略都是上上之选,因为它促进了人们之间的长久的合作,取得了共赢。那么在交往中具体采用什么样的方法提高合作性呢?(,1,)要建立持久地关系。即使是爱情,也需要建立婚姻契约以维持双方的合作。(,2,)要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。(,3,)要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。(,4,)能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态度。(,5,)不要嫉妒人家的成功,,一报还一报,正是这样的典范。(,6,)不要首先背叛,以免担上罪魁祸首的道德压力。(,7,)不仅对背叛要回报,对合作也要作出回报。(,8,)不要耍小聪明,占人家便宜。友善、有原则、宽容、简单、不嫉妒朋友的成功,这些信条应是我们每个人的为人处世之道。,五、人质困境,多个人的囚徒困境,在一群人面对威胁或损失时,“第一个采取行动”的决定是很难做出的,因为它意味着将付出惨重代价。这个困境便就叫做人质困境。,需要协调和个人牺牲才能有所收获的事情,做起来可能具有人们难以想像的难度。,仅仅用道德的呼唤来让人们挺身而出与邪恶作斗争是不现实的,而且,要任何一个人在人质困境中首先采取行动并独自承担报复的后果都是不公平的。,解决方法:提升人的群体理性,加强沟通与合作。,人质困境问题产生的机制称为“手风琴效应”,每一个折叠都会推动或拉动邻近一个折叠。每一个体都做了相同的选择,比如一车人面对两个劫匪选择沉默,但都是错误的选择。,个体理性和完全理性:,以个体利益最大为目标的利息没那个被称为个体理性,而有完美的分析判断能力和不会犯选择行为的错误被称为完全理性。,完全理性包括追求最大利益的理性意识、分析推理能力、识别判断能力、记忆能力和准确行为能力等多方面的完美表现,其中任何一方面不完美就不属于完全理性。,六、酒吧博弈,混沌系统中的策略,酒吧问题是美国人阿瑟,(W.B.Arthur),教授提出的。,酒吧问题是指这样一个博弈:有一群人,比如总共有,100,人,每个周末均要决定,是去附近的一个酒吧活动还是呆在家里。该酒吧的容量是
展开阅读全文