人机大战首局复盘:AlphaGo的失误总和远小于李世石的

赵赛坡/机器之心

2016-03-09 16:56 来源:澎湃新闻

字号
北京时间3月9日15时32分,经过三个半小时的鏖战,李世石九段完败于“远道而来”的AlphaGo。
比赛开始后,李世石选择了比较开放性但并不会体现出特别优势的下法。围棋国手古力对此评价说,李世石可能认为樊麾棋风偏软,所以很容易被电脑把控。所以他想一开始就强硬一点。但创新工场CEO李开复认为,李世石尝试了一些新的打法,但这是不明智的,稳健的打法比铤而走险更明智。AlphaGo前一个小时的表现非常惊艳,得到了专业棋手的认可,但同时也有一些走法很难做出判断。后来,AlphaGo出现了一次严重错误。而李世石越下越顺,在棋盘左下角出现了巨大优势,但后来心理出现了波动,出现一些明显的失误,而AlphaGo却迎头赶上,并下出了一个制胜招,此后李世石在正面交锋上节节败退,最终输掉了比赛。纵观整场比赛,AlphaGo基本没有错棋,但人类棋手值得争议的东西很多。
这场人类对机器在围棋领域的较量或许将成为最后一次公平的较量。因为从一开始,这就是一场胜负已定的游戏。
最后的棋局。
机器征服围棋的历程从未停止
比赛的具体细节并非本文讨论内容。很多人将这场比赛与1997年卡斯帕洛夫与深蓝比赛相提并论。不过就在两年之前,开发了当时世界上最先进围棋系统的Rémi Coulom曾预言,机器打败人类顶尖围棋选手的时间至少还要10年。但真实的速度要远远快于这个预期。在《Science》杂志描述的时间线里,机器征服围棋的过程与攻占象棋的战役几乎延续了同样的模式:
图:时间线(汉化:柒柒)
2015年最后几个月,Google DeepMind就开始与Facebook展开破解围棋的竞赛。2016年1月中旬,被问及谷歌是否已经秘密打败围棋高手时,Facebook人工智能实验室负责人Yann LeCun说这不可能。
所谓不可能正是因为围棋太复杂了。国际象棋平均每一步有大约35种可能的下法,围棋则多达250种,每一种下法之后又有250种下法,以此类推。这意味着,哪怕是最强大的超级计算机也无法预测每一种可能下法的最终结果,因为这实在是个复杂到无法想象的计算过程,即便是现在最强大的计算机处理能力,也无法快速完成这一计算任务。
对AlphaGo来说,要想掌握围棋,需要不断实践练习,同样需要识别棋子布局中微妙模式的巧妙本事。
DeepMind为AlphaGo准备了两种不同的神经网络,类似于它的两个大脑。第一种叫做政策网络(policy network),用来预测下一步;第二种叫做价值网络(value network),用来预测棋盘上不同的分布会带来什么不同的结果。AlphaGo使用它们的方法是,把非常复杂的搜索树减少到可操作的规模。所以,它并不是在每一步都要考虑几百种步数,而只考虑政策网络提供的几十种最有前景的步法,价值网络的作用是减少搜索的深度,所以,它的搜索深度并不是特别深,它并不是一下子搜索出直达比赛末尾的300多步,而是搜索更少的步数,比如20多步,并评估这些位置,而不是一路评估到底,看谁最终能赢。搜索并不是靠蛮力,而是某种与想象力很相似的东西。
在今天比赛中,经过猜先,第一局李世石执黑先行,而从比赛一开始,李世石似乎就陷入了困难。围棋世界冠军古力表示,从目前的局面来看,谷歌AlphaGo的落子和人类棋手的落子几乎没有区别,“可以看出水平确实绝非一般”,从比赛来看根本看不出来是人和机器在对战,完全就像是两个顶尖棋手之间的对决。
类似的反应也出现在AlphaGo战胜欧洲冠军樊麾的比赛中,国际围棋联合会的秘书长Hajin Lee承认自己被比赛进程震惊了:“当我看到这场比赛时,我非常震惊,因为计算机(AlphaGo)下得就像是人在下棋一样。如果你不告诉我,我可能无法区分出来哪些是计算机走的棋。”
另一方面,机器攻克围棋在技术上意义要远大于其社会意义。曾经用于深蓝的传统的AI算法,比如暴力算法(brute-force)根本无法应对围棋。过去很长一段时间内,机器在围棋领域与人类交手多次,但结果并不乐观(如下图)。从社会层面来看,欧美国家普通大众对于围棋的认知远远不及东亚三国,这也部分导致此次比赛人机大战的媒体风向几乎被中国(围棋起源国)、韩国(李世石九段的祖国)、英国(DeepMind总部位于伦敦)三国媒体所左右,对此英国曼彻斯特大学计算机科学教授,IEEE会士史蒂夫·弗伯接受《科学人》采访时承认:“然而,至少在西方,国际象棋一直代表着智力挑战的最高水平,因此大众对于AlphaGo围棋比赛的关注度可能反不及当年的深蓝。”
图:围棋人机大战回顾(制作:孟婷、柒柒)
从AlphaGo到BetaGo
曾被机器深蓝打败的卡斯帕洛夫几天前也在《新科学家》网站撰文告诫世人:“计算机擅长完美计算,我们的大脑则擅长通用的(generalities)、长期计划,将通用主题适用于新情况。当人类和机器势均力敌时,这种对比让人类和机器对弈变得有趣起来,就像20年前的象棋,当然,也像今天的围棋一样。”
与19年前所不同的是,打败卡斯帕洛夫的深蓝并未真正成为IBM的核心产品。这个在1997年5月完成惊艳亮相的计算机随即在9月宣布“退役”,撇开期间的种种争议不谈。但Google 显然不会对AlphaGo“轻言放弃”。2014年初,Google巨资收购DeepMind。一年后的2015年1月,DeepMind在《Nature》发表论文,展现了他们如何训练人工智能成为玩游戏的高手。
围棋的确也只是一门游戏,有独特且唯一的规则。华盛顿大学计算机教授、艾伦基金会人工智能总监Oren Etzioni这样说道,“围棋只是个游戏......你可以知道谁获胜谁失败。”但现实世界的复杂性远远超过游戏设置的难度,Etzioni以美国推翻利比亚卡扎菲政府为例,“那机器能不能告诉我,我们在利比亚是胜利还是失败?”
但 Hassabis或者Google的野心绝不仅仅局限在围棋上。由于DeepMind采用通用的AI技术来研发AlphaGo,其关键算法能够较快应用于其他领域。 Hassabis表示同样的算法可以武装到机器人身上,换句话说,让机器人像游戏中的算法那样学习现实世界的环境,并适时做出调整。 Hassabis更是大胆地预计,AlphaGo或许也将能开启一个新的研究方法,利用这种方法,机器能够快速识别出哪些领域具有研究的潜力,从而帮助人类研究者更好地找到研究方向。
曼彻斯特大学的计算机科学教授,IEEE高级会员凯文·柯伦也认同 Hassabis 的预计:“AlphaGo可以应用在许多领域,包括解决对抗性问题,或者应用到一些能被视作竞赛的、策略起到重大影响的领域,包括商业、战争或金融交易......由于AlphaGo可以处理大量数据,并且能更快地为科学家带来有助于科研突破的深刻洞见,AlphaGo可能推进科研进度,与科学家携手合作,投入有希望产出研究硕果的领域。”
鉴于深度学习已经在现实世界取得重大进展,从图像识别、语音识别再到自然语言处理,深度神经网络为这些“古老”技术带来新生。因此 Hassabis的上述表态并非痴人说梦,而更具体或短期的应用则是,帮助智能手机识别图像和语音并进行语言翻译,还能让智能手机理解不同语言,这项技术对于Google布局移动互联网具有重要意义,同时也将树立虚拟助理产品的新标杆,是的,我们可以忘记Siri了。
这场五番棋的比赛背后,既是一场商业公关秀,也是一场技术测试秀,当然,公众也看到了人类在人工智能面前的无奈,补充三个细节:
- 当AlphaGo逼得李世石无法贴目时,李世石脸上显出沮丧;
- 中国围棋队总教练俞斌直言:AlphaGo出现的两个失误加起来都比李世石的失误小得多。
- 古力认为,李世石在明天第二盘还有获胜的可能。

本文由澎湃新闻经授权转载自“机器之心”(微信订阅号:almosthuman2014)。“机器之心”是Comet Labs旗下的前沿科技媒体。
运动
我是上海外国语大学围棋队主教练孙远,关于谷歌人工智能VS李世石围棋大战,问我吧!
孙远 2016-03-09 321 已关闭提问
责任编辑:马睿澎湃新闻报料:4009-20-4009   澎湃新闻,未经授权不得转载
关键词 >> 李世石, 人机大战

继续阅读

评论(219)

热新闻

澎湃新闻APP下载

客户端下载

热话题

热门推荐

关于澎湃 在澎湃工作 联系我们 版权声明 澎湃广告 友情链接