下载客户端

我是个好人，但如果你来挑事儿我就会反击 | 纳什均衡

2023-05-23 19:35

来源：澎湃新闻·澎湃号·湃客

约翰·纳什（John Nash，1928—2015）

美国的数学家。在博弈论、微分几何学、偏微分方程式研究等领域取得了很大的功绩。纳什所提倡的纳什均衡非常出名，因此也有人认为游戏理论是纳什耗费毕生心血得来的杰作，但实际上纳什研究游戏理论是在读博士期间以及那之后的短短数年。他职业生涯的后半段是在普林斯顿大学教授数学，于1994年获得了诺贝尔经济学奖。

以下内容选自《哲学是职场的有利武器》

纳什均衡（Nash equilibrium）是博弈论当中的一个术语。指的是参加到博弈游戏中的两方玩家，都做出对自己最有力的选择，以期待收获最大的收益，即双方进入一种均衡状态。用来说明纳什均衡的思考实验中最广为人知的例子就是“囚徒困境”。“囚徒困境”最早作为思考实验出现在1950年普林斯顿大学的数学家阿尔伯特·塔克教授的演讲举例中。这位阿尔伯特·塔克先生就是约翰·纳什的指导老师。

所谓的“囚徒困境”，就是如下的一种思考实验。假设两个人抢劫银行被警察抓住，被分别关在不同的屋子里进行调查取证。警察分别对两个犯罪嫌疑人提出如下的条件：“如果你们两个人都继续保持沉默，则由于证据不充分，各被判刑1年；如果俩人都能坦白，则各被判刑5年；如果对方保持沉默，而你能坦白，那么作为你协助调查的回报，你被判无罪释放，对方被判刑10年。”

这时候，两个被困的嫌疑人应该会经历这样的思考过程。“如果对方保持沉默，我坦白的话，我就可以被无罪释放；如果我也保持沉默，就会被判刑1年。这种情况下我还是坦白比较好。另一方面，如果对方选择坦白，我也坦白，则会获刑5年，而如果我保持沉默则会获刑10年。在这种情况下仍然是坦白比较划算。也就是说，不管对方是坦白还是沉默，对于我来说都是选择坦白比较划算。”于是乎，两个囚徒双双选择了坦白，各获刑5年。这个故事告诉我们，当我们采取合理的战略去获得个人利益最大化的时候，并不一定能确保整体利益的最大化。从专业的角度来说，这叫作“非零和博弈”。

这个“囚徒困境”的例子，只是通过仅有一次的决策来决定参与者的利益的一种博弈游戏，然而真实的人类社会中并没有这么单纯，是合作还是背叛，这个选择会不断反复出现。于是当我们运用这种“需要不断重复多次选择”的情况，构成一种名字叫作“重复囚徒困境”的博弈游戏，将会需要做决策的人们带来深刻的启迪。

在这个博弈游戏中，玩家分别拿着两种牌：一种是“合作”，一种是“背叛”。在信号发出的同时要给对方看自己手上的牌。如果两个人都出的是“背叛”牌，那么两个人都可以获得1万元的奖金；如果两个人都出“合作”牌，那么分别可以获得3万元奖金；如果一方出的是“背叛”牌，另一方出的是“合作”牌，出“背叛”牌的那一方可以获得5万元奖金，而出“合作”牌的一方什么都得不到。那么问题来了，为了获得最高额度的奖金，应该怎么进行选择呢？

这个游戏设定的规则极为简单，却引起了难以置信的热烈讨论。最后密歇根大学的政治学家罗伯特·阿克塞尔罗德决定让电脑和电脑进行“反复囚徒困境”比赛，看看什么样的程序能够获得最高的利益。在这个比赛中，汇集了政治学、经济学、心理学、社会学等领域的14名专家带着他们精心策划的电脑程序，此外阿克塞尔罗德还加入了一个能够随机输出“合作”和“背叛”的随机程序，总计15个电脑程序进行循环赛。比赛一个回合下来会进行200次的“囚徒困境”实验，一共进行5个回合，最终取它们的平均得分点进行比较。

据说当时结果出来的时候，所有参赛人员都惊呆了。因为最终获胜的，竟然是一个最简单的电脑程序，只有3行。这个程序的作者是多伦多大学的心理学家阿纳托·拉普伯特，其程序的内容是，第一次出“合作”牌，第二次开始每一次都出与对方上一次出的一样的牌，不断重复，仅此而已，可以说是极其简单的一个逻辑。

事实上关于这个实验有许多争议和批判，认为选定的流程或者结果缺乏合理性等等。阿克塞尔罗德整理出了颇有意思的“这个程序的强大之处”，我们且来看看：

第一，这个程序中绝对不会主动发出“背叛”牌。首先是“合作”，只要对方也是合作的话，自己也继续保持合作。是一种“好人”战略。

在这个基础上，第二，如果对方发出了“背叛”牌，那么自己也立马回之以背叛。如果自己一味地合作，那么一旦对方发出了背叛的牌，自己的损失就会变大，因此需要立即给对方施以惩戒。也就是说“我是个好人，但是如果你来挑事儿我就会反击”。

第三，当背叛了的对方重新回到合作的轨道上来的时候，自己这边也跟着发出合作的牌，展现出自己的宽容大度。过去的事情就让它过去，握手言和，也是一种“好人”战略。最后，在这个程序中，从对方角度来看就会明白一个道理，“只要我自己不背叛他，他就一定是个好人，但是如果我一旦背叛他，他也会立马背叛我”。这表现出了一种非常单纯易懂、容易预测的人格特征。

这个非常单纯的战略实在是很坚固。在第一次比赛过去几年之后的第二次比赛中，尽管有了比第一次多出许多的高级程序，不断给出新的复杂的统计解析思路，但是仍然还是这个简单的程序获得了胜利。于是，拉普伯特想出来的程序最终得到世人的认可，成为一种在非常广泛的领域中都有效的战略手段。

人类对于他人的基本认知是多种多样的，比如也许有的人认为“防人之心不可无”这句格言是人类智慧的结晶，但是先去合作，只要不被对方背叛就持续保持合作这样的一种处事模式才是“反复囚徒困境”游戏中的最强战略。对此，我们可以从中得到非常多的启迪。阿克塞尔罗德将这些研究整理进了一本名为《合作的进化》的书籍里，关于博弈理论是否可以被运用到实际生活中这一点，书中也有提到一些观点，能够给我们带来一些思考。比如，“虽然这种合作战略在长期交往的情况下会有效果，但如果不具备长期交往的条件就不一定会有效果”。