中国学霸队迎战美国德扑AI,李开复称这是人类最后获胜机会

澎湃新闻见习记者 虞涵棋

2017-04-05 18:33 来源:澎湃新闻

字号
“虽然人类只有10%左右的胜率,但是10%其实挺高的了。柯洁对阵阿尔法狗,胜率是0。所以不要去看围棋了,还是看我们的德扑吧,希望这次我们人类能最后一次战胜人工智能”,4月5日,创新工场CEO李开复在北京创新工场总部举行的德州扑克人机大战表演赛赛前发布会上说道。
而李开复口中的这个胜率达到90%的大BOSS,名叫Libratus,是一个擅长打德州扑克的美国AI。今年1月份,它在匹兹堡的大河赌场对阵4名顶尖职业玩家大杀特杀,加冕AI赌神。这次,它将来到中国“踢馆”,和6位中国高手过过招,并取了一个武侠风的中文名字——“冷扑大师”。
这6名中国顶尖德州扑克玩家组成的中国“龙之队”,由2016年获得世界扑克系列赛WSOP冠军的队长杜悦领衔。杜悦在发布会上回答澎湃新闻(www.thepaper.cn)的提问时表示,龙之队在清明小长假期间做了非常充分的准备工作,“基于我们对于人工智能的了解,我们相信,虽然说冷扑大师是AI在德扑领域的巅峰之作,应该是取得了非常大的成就,但是离计算机科学和人工智能能够达成的理论水平,还有一定的距离。就像李开复老师讲的,AI超越人类是迟早的事,不是这一次就是下一次。我们只是有个小小的梦想,希望中国龙之队是最后一支战胜AI的团队。”
创新工场CEO李开复与中国“龙之队”队长杜悦
200万元奖金,36000手牌
冷扑大师将于4月6日到10日间在海南澄迈生态科技园与中国“龙之队”进行一场德州扑克人机大战表演赛,而主办方为此项赛事开出的奖金是200万元人民币。
在为期5天的比赛中,龙之队的6名玩家将每天进行上下两场共计10个小时、1200手牌的高强度比赛,且每次同时玩两手牌。而对“冷扑大师”来说,就是同时处理12手牌。在36000局比赛后,主办方通过统计玩家累积的总筹码来判决胜负。
图解德州扑克人机大战表演赛赛制
值得一提的是,为了降低发牌中的运气因素,比赛将采用复式对称发牌的方式。6名人类玩家两两配对,被拆分为两组,在两个独立的房间中与AI对阵。每一名人类玩家和AI对阵的手牌,都会对调为其配对人类玩家比赛时AI的手牌。
“冷扑大师”的必杀技在残局
“冷扑大师”的开发者是美国卡内基梅隆大学(CMU)的计算机系教授托马斯•桑德霍姆(Tuomas Sandholm)和其研究生诺姆•布朗(Noam Brown)。它的拉丁语名字Libratus意为“均衡的”。这是因为纳什均衡为Libratus的算法提供了重要源泉。
今年1月10日到1月30日,在为期20天、共计12万手的一对一无限注德州扑克比赛中,Libratus压过Jason Lee、Dong Kim、Daniel McAulay 和Jimmy Chou这4名CMU精心遴选出的顶尖高手,共计赢得176万美元筹码。
不过冷扑大师这次虽然“身”在中国,“心”却仍在匹兹堡。同在大河赌场的比赛一样,匹兹堡超算中心会继续承担AI的计算处理任务。
虽已加冕AI赌神,桑德霍姆团队目前还没有揭晓“冷扑大师”的全部秘密。现在有限的信息是,它在牌局初期会采用近似转化的方法来减少计算量,而残局阶段才是Libratus真正发威的时候:残局阶段计算量更少,计算机可以做到实时计算。
以纳什均衡为代表的博弈论是德扑算法的核心,即AI的目标是找到一个无论对方走哪一步,自己都不会产生损失的策略。在博弈论中,像一对一扑克这种零和游戏永远存在这样的最优解,就像在经典的博弈论模型“囚徒困境”中,招认罪行就是一个无论对方招认不招认都最优的策略。人类高手可能会利用对手的犯错来获得更大的利益,但对AI就毫无办法。因为AI只会按计算所得的最优策略决策,不受对手的干扰。
这也解释了与其交手过的人类玩家对AI的一个评价:Libratus在比赛中表现出了高水平的诈唬和反诈唬。毕竟,AI对人类对手的“演技”可是视而不见的,它们“满脑子”都是数学。对AI来说,诈唬只是一种让对手猜不透自己手牌的数学手段。
如果说阿尔法狗是IQ天才,冷扑大师就是EQ专家
拥有CMU双博士的李开复在看到Libratus的消息后立马萌生了邀请德扑AI来华比赛的想法。他说道,从1983年起,他就开始做人机对弈。1988年,CMU开发的“奥赛罗”击败了黑白棋世界冠军,其中就有李开复的贡献。
“我觉得我比较懒,我花了一个暑假做了这个东西,我师兄花了15年做出了‘深蓝’,这就是我和这个领域的渊源和故事”,李开复回忆道。1997年,IBM的计算机“深蓝”击败了国际象棋棋坛神话卡斯帕罗夫。
国际象棋棋坛神话卡斯帕罗夫不敌IBM的“深蓝”
此后,人类见证了人工智能在棋类领域上的所向披靡,而在过去的一年间挑落中日韩三国顶尖围棋手的阿尔法狗无疑奏响了最强音。这些被人工智能攻克的棋类都是“完美信息”游戏,所有玩家在游戏中能获得的确定性信息是对称的。人工智能掌握这些游戏的难度,主要取决于游戏的决策树(decision tree)上的决策点(decision points)数量,这决定了计算机在决策树上的搜索强度。围棋是上述几种棋类中决策点数量最多的,因而也是最后被人工智能掌握的。
“奥赛罗是第一个打败世界冠军的人机对弈系统,搜索难度是10的十几次方;到了深蓝是10的四十几次方,这是30个数量级的提升,从计算机的角度来说了不得。大家当时都说围棋(的搜索量)是10的172次方,这要再提升140个数量级,至少是25年之后的事”,李开复说道。
尽管最终阿尔法狗的横空出世没有花上25年,但李开复认为,围棋在本质上依然是一个纯粹的搜索问题,这种前提下人类早就没有赢的希望,只是时间的问题。但扑克是完全不同的。
德州扑克是一种更接近现实世界的“非完美信息”游戏,玩家只掌握不对称的信息,他不知道对手手中是什么牌,不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。这些问题在计算范围之内。
这与我们在现实生活中遇到的很多问题类似:商业谈判、网络安全、出租车自动驾驶、机器人规划、医疗规划等。这些问题都需要在 “不完美信息”情景中做出决策,打“心理战”。
“如果说阿尔法狗是一个IQ超级天才,冷扑大师其实在一定程度上是一个EQ专家。不能说它比阿尔法狗更难,阿尔法狗肯定是搜索空间更大、速度更快。但冷扑大师来到了另一个游戏层次——心理游戏的层次”,李开复总结道。
“学霸”组成的中国龙之队
虽然冷扑大师在美国完胜4名顶尖高手,但李开复认为这次中国龙之队比起美国团队有一个独特的优势:4名美国高手是以德扑谋生的职业玩家,而中国龙之队的成员大多具有金融和计算机背景,可以说是一支“知己知彼”的“学霸”战队。
澎湃新闻(www.thepaper.cn)梳理中国龙之队队员的基本信息如下:
队长杜悦:毕业于清华大学计算机系,现任常春藤资本基金合伙人,曾任人人集团副总裁,2016年获得世界扑克系列赛WSOP冠军;
许朝军:毕业于清华大学计算机系,点点网、啪啪创始人兼CEO,曾任搜狐技术总监、盛大在线首席运营官。北京国际扑克学校创始人及校长;
张淮:毕业于清华大学计算机系,甲骨文公司高级工程师,德扑深度研究者;
童舟:北京千山剧影视传媒有限公司董事长兼总经理,2016年WPT China豪客赛第4名;
朱亚希:2012年毕业于浙江大学,被称为“德扑女神”, 2016年获得德州扑克澳门百万赛中国冠军赛冠军;
王天建:2006年创办中国扑克网,2013年带队参加国际扑克联盟(IFP)复式德州亚洲国家杯,最终获得亚洲国家杯冠军。
德州扑克人机大战表演赛即将开赛
除了表演赛正赛之外,4月10日赛事最后一天晚间,各路名人大咖将齐聚海南展开一场别开生面的“冷扑大师名人体验赛”。负责名人体验赛的协办方春光里创始合伙人楚小白介绍,来自科技圈、投资圈、媒体圈等共36位名人嘉宾将参与其中,组成六支名人战队来挑战冷扑大师。创新工场CEO李开复、天神娱乐董事长朱晔、丰厚资本创始合伙人暨春光里创始人杨守彬、知名电视主持人许戈辉、极客公园创始人张鹏、Xtecher创始人戚宗超、知名媒体人阳淼等嘉宾都将悉数到场,亲自体验与机器对打扑克。
上次阿尔法狗大战韩国棋手李世石时,相信大多数不懂围棋的观众看着棋盘上的黑白交错宛如看天书。而德扑不同,比起围棋的“阳春白雪”,它的上手门槛非常低。只要记住不到10种牌型及它们相互之间的大小关系,大家就能搬起小板凳、嗑起瓜子,轻松欣赏这场德扑人机大战表演赛了。
责任编辑:虞涵棋澎湃新闻报料:4009-20-4009   澎湃新闻,未经授权不得转载
关键词 >> 德扑,AI,CMU,阿尔法狗,李开复,创新工场,海南,澎湃,澎湃新闻

继续阅读

评论(25)

热新闻

澎湃新闻APP下载

客户端下载

热话题

热门推荐

关于澎湃 在澎湃工作 联系我们 版权声明 澎湃广告 友情链接