澎湃Logo
下载客户端

登录

  • +1

我是个好人,但如果你来挑事儿我就会反击 | 纳什均衡

2023-05-23 19:35
来源:澎湃新闻·澎湃号·湃客
字号

约翰·纳什(John Nash,1928—2015)

美国的数学家。在博弈论、微分几何学、偏微分方程式研究等领域取得了很大的功绩。纳什所提倡的纳什均衡非常出名,因此也有人认为游戏理论是纳什耗费毕生心血得来的杰作,但实际上纳什研究游戏理论是在读博士期间以及那之后的短短数年。他职业生涯的后半段是在普林斯顿大学教授数学,于1994年获得了诺贝尔经济学奖。

以下内容选自《哲学是职场的有利武器》

纳什均衡(Nash equilibrium)是博弈论当中的一个术语。指的是参加到博弈游戏中的两方玩家,都做出对自己最有力的选择,以期待收获最大的收益,即双方进入一种均衡状态。用来说明纳什均衡的思考实验中最广为人知的例子就是“囚徒困境”。“囚徒困境”最早作为思考实验出现在1950年普林斯顿大学的数学家阿尔伯特·塔克教授的演讲举例中。这位阿尔伯特·塔克先生就是约翰·纳什的指导老师。

所谓的“囚徒困境”,就是如下的一种思考实验。假设两个人抢劫银行被警察抓住,被分别关在不同的屋子里进行调查取证。警察分别对两个犯罪嫌疑人提出如下的条件:“如果你们两个人都继续保持沉默,则由于证据不充分,各被判刑1年;如果俩人都能坦白,则各被判刑5年;如果对方保持沉默,而你能坦白,那么作为你协助调查的回报,你被判无罪释放,对方被判刑10年。”

这时候,两个被困的嫌疑人应该会经历这样的思考过程。“如果对方保持沉默,我坦白的话,我就可以被无罪释放;如果我也保持沉默,就会被判刑1年。这种情况下我还是坦白比较好。另一方面,如果对方选择坦白,我也坦白,则会获刑5年,而如果我保持沉默则会获刑10年。在这种情况下仍然是坦白比较划算。也就是说,不管对方是坦白还是沉默,对于我来说都是选择坦白比较划算。”于是乎,两个囚徒双双选择了坦白,各获刑5年。这个故事告诉我们,当我们采取合理的战略去获得个人利益最大化的时候,并不一定能确保整体利益的最大化。从专业的角度来说,这叫作“非零和博弈”。

这个“囚徒困境”的例子,只是通过仅有一次的决策来决定参与者的利益的一种博弈游戏,然而真实的人类社会中并没有这么单纯,是合作还是背叛,这个选择会不断反复出现。于是当我们运用这种“需要不断重复多次选择”的情况,构成一种名字叫作“重复囚徒困境”的博弈游戏,将会需要做决策的人们带来深刻的启迪。

在这个博弈游戏中,玩家分别拿着两种牌:一种是“合作”,一种是“背叛”。在信号发出的同时要给对方看自己手上的牌。如果两个人都出的是“背叛”牌,那么两个人都可以获得1万元的奖金;如果两个人都出“合作”牌,那么分别可以获得3万元奖金;如果一方出的是“背叛”牌,另一方出的是“合作”牌,出“背叛”牌的那一方可以获得5万元奖金,而出“合作”牌的一方什么都得不到。那么问题来了,为了获得最高额度的奖金,应该怎么进行选择呢?

这个游戏设定的规则极为简单,却引起了难以置信的热烈讨论。最后密歇根大学的政治学家罗伯特·阿克塞尔罗德决定让电脑和电脑进行“反复囚徒困境”比赛,看看什么样的程序能够获得最高的利益。在这个比赛中,汇集了政治学、经济学、心理学、社会学等领域的14名专家带着他们精心策划的电脑程序,此外阿克塞尔罗德还加入了一个能够随机输出“合作”和“背叛”的随机程序,总计15个电脑程序进行循环赛。比赛一个回合下来会进行200次的“囚徒困境”实验,一共进行5个回合,最终取它们的平均得分点进行比较。

据说当时结果出来的时候,所有参赛人员都惊呆了。因为最终获胜的,竟然是一个最简单的电脑程序,只有3行。这个程序的作者是多伦多大学的心理学家阿纳托·拉普伯特,其程序的内容是,第一次出“合作”牌,第二次开始每一次都出与对方上一次出的一样的牌,不断重复,仅此而已,可以说是极其简单的一个逻辑。

事实上关于这个实验有许多争议和批判,认为选定的流程或者结果缺乏合理性等等。阿克塞尔罗德整理出了颇有意思的“这个程序的强大之处”,我们且来看看:

第一,这个程序中绝对不会主动发出“背叛”牌。首先是“合作”,只要对方也是合作的话,自己也继续保持合作。是一种“好人”战略。

在这个基础上,第二,如果对方发出了“背叛”牌,那么自己也立马回之以背叛。如果自己一味地合作,那么一旦对方发出了背叛的牌,自己的损失就会变大,因此需要立即给对方施以惩戒。也就是说“我是个好人,但是如果你来挑事儿我就会反击”。

第三,当背叛了的对方重新回到合作的轨道上来的时候,自己这边也跟着发出合作的牌,展现出自己的宽容大度。过去的事情就让它过去,握手言和,也是一种“好人”战略。最后,在这个程序中,从对方角度来看就会明白一个道理,“只要我自己不背叛他,他就一定是个好人,但是如果我一旦背叛他,他也会立马背叛我”。这表现出了一种非常单纯易懂、容易预测的人格特征。

这个非常单纯的战略实在是很坚固。在第一次比赛过去几年之后的第二次比赛中,尽管有了比第一次多出许多的高级程序,不断给出新的复杂的统计解析思路,但是仍然还是这个简单的程序获得了胜利。于是,拉普伯特想出来的程序最终得到世人的认可,成为一种在非常广泛的领域中都有效的战略手段。

人类对于他人的基本认知是多种多样的,比如也许有的人认为“防人之心不可无”这句格言是人类智慧的结晶,但是先去合作,只要不被对方背叛就持续保持合作这样的一种处事模式才是“反复囚徒困境”游戏中的最强战略。对此,我们可以从中得到非常多的启迪。阿克塞尔罗德将这些研究整理进了一本名为《合作的进化》的书籍里,关于博弈理论是否可以被运用到实际生活中这一点,书中也有提到一些观点,能够给我们带来一些思考。比如,“虽然这种合作战略在长期交往的情况下会有效果,但如果不具备长期交往的条件就不一定会有效果”。

职场人士如果想要培养创意思维的能力、增加对现实的洞察力与解读力,那么哲学就是一门能够给予我们重要启示的学问。针对职场人士的需要,作者用新的观点解读“无知之知”“逻辑、伦理、情感”“平凡之恶”“反脆弱”等50个概念,堪称在工作的修罗场上淬炼出来的“哲学使用说明书”。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈