下载客户端

虽然完败于德扑人工智能，人类牌手却靠“认怂”偷了几局

澎湃新闻见习记者虞涵棋

2017-04-10 12:45

来源：澎湃新闻

“我跟它（AI）打就一直认怂。”北京千山剧影视传媒有限公司董事长、中国“龙之队”队员童舟这样向澎湃新闻（www.thepaper.cn）介绍他曾连胜德扑AI四场的“心得”。

虽然5月份在乌镇，围棋“当今第一人”柯洁将与AlphaGo上演围棋界人机对战的终极一战，但创新工场CEO李开复在4月5日断言柯洁毫无胜算，比起来，4月6日到10日举行的德州扑克人机大战表演赛尚有10%的可能成为人类历史上赢得人机对战的绝唱。

这场德扑表演赛由创新工场与海南生态软件园联合主办，比赛双方为由杜悦、许朝军、张淮、童舟、朱亚希、王天健共六位人类牌手组成的中国“龙之队”和李开复母校美国卡内基梅隆大学（CMU）开发的德扑人工智能系统Libratus，比赛奖金为200万元人民币。

4月10日中午，在海南澄迈的比赛场地，室外阳光明媚，室内人类收获了相当惨淡的赛果。在33000手牌后，6名牌手共计输给人工智能Libratus792327分，可谓完败。

但在个人战绩上，人类牌手还是创造了一些亮点的：点点网、啪啪创始人许朝军曾收获前三场连胜的“开门红”，而童舟自第三场结束，即第2比赛日中午向队友打赌必胜AI后，斩获了从第四场到第七场的四连胜。在个人最终战绩上，童舟也是输的最少的。

那么，是什么给了童舟信心，让他在三场之后撂下狠话的呢？童舟在接受澎湃新闻（www.thepaper.cn)专访时透露，他总结了第1比赛日后就找到了AI的几个漏洞，并不断示弱，引诱AI前来“偷鸡”，由此反败为胜。不过，AI每天都会修复前一天的漏洞，人类牌手只能重新开始寻找新的漏洞。

“跟AI完全不是在打德扑”

简单来说，德扑是玩家用自己手中的2张底牌和牌桌上的5张公共牌进行组合，选出5张凑成最大的牌型（各种牌型有固定的大小顺序，如5张同花顺比4张同样数字加一张单牌要大）。而牌桌上的5张公共牌分3个环节翻开，分别为翻牌（flop）、转牌（turn）、河牌（river）。在翻牌的不同阶段玩家都有加注的机会。

而最基本的下注策略有两种，一是诈唬下注（bluffing），又称为“偷鸡”，即以吓退对方盖牌为目的的加注；二是价值下注（value bet），即在手中的牌有把握比对方大的时候，以引诱对方跟注而赢得更多筹码为目的的下注。

童舟告诉澎湃新闻（www.thepaper.cn），他在第一天时完全按照和人类对战的方式和AI打，结果发现无论是诈唬还是价值下注都讨不到便宜，输得很惨。后来，他发现AI有一些漏洞，“也不完全是漏洞，更准确地说是一些套路。”

这些套路是指AI打牌会出现一些重复的模式，使人类有迹可循。童舟发现“AI河牌加注1/5底池的时候基本上是在偷鸡”，这样人类牌手就可以抓住这些机会。

不过，AI每天晚上都似乎会修复前一日比赛中出现的“漏洞”，改变风格。幸运的是，童舟在第二天也同样会抓到AI新的漏洞。

虽然这样能够有赢过AI的机会，但童舟也无奈地表示，这样完全不像是在玩德扑了，他所做的就是“由它在主导，跟着它的路子，慢慢的它的漏洞就会暴露出来，然后就利用这个误导它。”另一件令他无奈的事是，AI虽然会被人抓住“偷鸡”的机会，但它是个防守非常稳健的选手，“想让它输很难，你赢它赢不多，如果你想赢它很多就会输更多。”因此，童舟一直把底池控制得很小，不敢和AI“对飙”。

不过，尽管有这些可循的痕迹，“龙之队”队员依然称赞AI是个非常优秀的德扑选手，甚至超过了人类所能理解的打法。一方面，AI读牌方面的计算很强，“只要它觉得比你大一点点，它就会打价值（下注），只有国外一些顶级的牌手会这么做，很多中国人就过牌了。 ”童舟说道。

另一方面，AI下注非常大胆。有时候AI起手底牌很差，人类选手按照理性计算肯定会弃牌，但AI多次拿着很差的底牌（比如3和6）大胆冒进，结果在转牌或河牌阶段上演大逆转（河牌真的开出了一张6），令人类选手匪夷所思，拍案叫绝，仿佛AI真的能猜到未翻开的牌一样。

AI开发者：可能不会做多人德扑，一对一就是最好的

那么，德扑AI神乎其技的牌技究竟是基于怎样的算法实现的呢？它与实现围棋的AI路径有何不同？这次与人类对战的人工智能Libratus的开发者之一，美国卡内基梅隆大学（CMU）计算机系教授托马斯•桑德霍姆（Tuomas Sandholm）的博士生诺姆•布朗（Noam Brown）在接受澎湃新闻专访时说道，Libratus并没有使用时髦的深度学习，但在残局计算上下足了功夫。

事实上，世界范围内有好几个团队都扑在开发德扑AI，而加拿大阿尔伯塔大学的一个团队更是在今年1月初抢先发表论文，宣布他们的Deepstack成为首个击败人类牌手的德扑AI。诺姆承认，这些团队实现德扑AI的核心路径是相同的，都是一种名为“虚拟遗憾最小化”（counterfactual regret minimization）的算法。

但诺姆对他们的Libratus非常自信，认为它能在机器对战中完胜其他的德扑AI。这是因为，他们不仅充分在算法中运用了博弈论的知识，更将AI的残局计算能力大大强化了。“和围棋不一样，围棋是越下越简单的，残局阶段计算量更小。但德扑开到转牌和河牌阶段，局面更为复杂，存在的可能性更多。”诺姆说道。

值得一提的是，开发团队并没有使用深度学习训练机器。阿尔法狗在学习数千万张人类棋谱后才开始进入“左右互搏”的自我对弈阶段，在AI上称为强化学习（reinforcement learning）。而Libratus的开发者只是向它描述了德扑的游戏规则，就开始由它通过强化学习的方法自己摸索德扑应该怎么打。因此，Libratus的打法完全脱离人类经验，天马行空，在人类牌手看来十分激进。

Libratus接连在单挑中战胜中美德扑高手，外界都开始关心AI离掌握多人德扑还有多远。然而，诺姆却透露，他们可能并不会去做多人德扑。因为，在他们看来，多人德扑超过了纯粹竞技的范围，因此很难根据战绩来评估AI的水平。诺姆打了个比方，奥运会并没有超过两支队伍的比赛，“因为你无法控制别的对手相互之间的互动，就算你自己做出的选择是完美理性的，结果可能也体现不出来。”

桑德霍姆教授则笑着说，“为什么要玩多人德扑？一对一永远是最好的游戏！”。

尽管德扑AI代表的“高情商”、“会欺骗”、“会博弈”的人工智能打开了通往更多现实场景应用的大门，不过，在近期，桑德霍姆和诺姆团队还是会专注完善一对一德扑。“这毕竟是我们的招牌嘛。”诺姆说道。

“龙之队”稍有不服

除了博弈论和残局计算之外，此次的冠军Libratus还有一个秘诀：它会在每一个比赛日结束后回顾这一天的对战经历，找出曾被人类利用的“套路”，并自我清除。也正因为如此，“龙之队”的一位助理向澎湃新闻（www.thepaper.cn）透露，Libratus团队并未提供每天的比赛数据，这让人类团队每晚在复盘上花了更多精力，也更难通过数据来分析AI的打法，形成针对性策略。

上述消息人士说道，“龙之队”首次亮相就遭遇了AI。鉴于Libratus曾在1月份连续20个比赛日中击败了四名顶尖美国高手，因此他们原本就不抱有胜算，只是想尽力一搏，如果能有一名人类牌手侥幸领先，当然再好不过。然而，AI团队不提供比赛数据的做法令他们稍有不服。甚至，在第1个比赛日，桑德霍姆教授没有提供最后的胜负情况，因为一天的比赛运气成分很大，他并不想让“人类牌手打败AI”成为新闻噱头。该消息人士说道，“当然，即使提供给我们数据，大概也是输，但这样会输得更心服口服。我能感到他们非常希望AI赢，但双方在更平等的起点上，AI的胜利也会更令人信服。当然，整体来说，AI牌打得非常好，我们经常会对它的一些打法感到很佩服，确实很高明。”

校对：刘威

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报