澎湃Logo
下载客户端

登录

  • +1

人类不是最好对手!新AlphaGo放弃人类经验后棋力飞涨

澎湃新闻记者 吴跃伟
2017-10-19 07:51
来源:澎湃新闻
绿政公署 >
字号
AlphaGo Zero使用的计算能力更少了,为什么棋力更强?研究人员详解其中玄机。(02:09)

在围棋比赛上,人工智能程序AlphaGo横扫世界顶尖棋手的事情,早已不是新闻。但人们聊以慰藉的是,AlphaGo是在大量学习了人类棋谱后,才慢慢“封神”。

这一认知现在也被改写。

10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。

有专家告诉澎湃新闻(www.thepaper.cn),“抛弃人类经验”和“自我训练”并非AlphaGo Zero最大的亮点,其关键在于采用了新的reinforcement learning(强化学习的算法),并给该算法带了新的发展。

此外,有专家表示,应理性看待AlphaGo Zero。Deepmind的论文一发表,TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。

该论文称,在数百万局自我对弈后,随着程序训练的进行,AlphaGo Zero独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略,为这个古老的游戏带来新见解。

《自然》为该论文配发两篇评论文章,一篇来自计算机科学家,一篇来自围棋选手。

世界顶尖棋手的养成,动辄需要数十年的训练、磨砺。但AlphaGo Zero创造了一个纪录:3天。

AlphaGo Lee是AlphaGo Zero的“前辈”。它拥有48个TPU(神经网络训练专用芯片),在参考大量人类棋谱,并自我对弈约3000万盘、训练数月后,2016年3年月,AlphaGo Lee以4:1的击败韩国九段棋手李世石,引发人们关注。

AlphaGo Zero仅拥有4个TPU,零人类经验,其自我训练的时间仅为3天,自我对弈的棋局数量为490万盘。但它以100:0的战绩击败前辈。

Deepmind公司详解了AlphaGo Zero的更多不同之处,在识别棋盘盘面时,它直接识别黑白棋子,而非要将图像分类;它仅使用一张人工神经网络,此前的两张被合二为一。

但更大的革新之处在于,AlphaGo Zero采用了新的算法——强化学习算法。在每一次训练后,AlphaGo Zero都能根据训练结果,进一步优化其算法。

上海交通大学致远讲席教授、认知机器和计算健康(CMaCH)研究中心主任徐雷告诉澎湃新闻,AlphaGo Zero开启了强化学习(Reinforcement Learning)研究和应用的新阶段。从初期算法到上世纪90年代初的Q学习,再到这十来年的深度强化学习,已走过三个阶段。 今天在AlphaGo Zero中,深度强化学习进一步与树搜索的lookahead (类似一种派出侦察队预先到前面打探)机制相融合,产生了一种高效的深度强化学习新机制。正是有了它,不再象 AlphaGo去求助由大量样本学习过去经验得到的走子策略,而可以在自我对弈过程中自悟出更高明的走子策略。

不仅是围棋,这个新机制可应用于现实世界中的许多问题,典型的例子包括各种对弈问题、 最佳货物配送路径、蛋白质折叠的预测、新材料的设计等等。徐雷解释,它们的共同特征是,从出发点到目标实现,有大量的步骤要走,而每一步又有许多可能的选择,强化学习致力于为求解这类问题寻找一条成功路径,其过程类似 “摸着石头过河“。每走一步,收到环境的“奖”或“罚”信息后,不仅就下一步的各种可能做出选择,还要进行学习以增强做出好选择的能力。近年来的深度强化学习,已经有了很大进步。今天AlphaGo Zero的深度强化学习新机制,为解决各种各样的这类问题,展示了十分令人憧憬的前景。

上海纽约大学计算机科学教授张峥表示,从算法上来说,AlphaGo Zero比其“前辈”更简洁、漂亮。这一次,AlphaGo Zero摆脱了人为的大数据,在人类给定的一个规则下,自主发现新知识,并且纠正人类的错误知识,而且是以惊人的速度达到这一点。有趣的是,AlphaGo Zero却无法解释(它是如何完成这一切的),只能demo(样本)给人类。

复旦大学计算机科学技术学院教授危辉告诉澎湃新闻,AlphaGo Zero的算法、程序,如同一个黑箱,在一次又一次的自我训练后,有了很多优化。拷贝那一行行代码,就可以“继承”这个被优化过的算法。但算法中的详情,人们并不知晓。

危辉将围棋盘面上各种变化比作宇宙中的星辰,通过人类智力、直觉,人们可能已经触及了其中百万分之一的情形,AlphaGo Zero可能触及了其中其中百万分之五的情形,“比人类多,但肯定没有穷尽。”

张峥表示,AlphaGo Zero等人工智能及地球上的计算能力是否穷尽搜索了围棋盘面的各种可能,他不清楚,但AlphaGo Zero等人工智能一定比人更快,而且有新的发现。换句话说,会产生新的棋谱。

上海交通大学软件学院教授陈海波认为,从理论上说,强化学习的算法本来就可以实现自我训练,AlphaGo Zero提供了一个非常好的范例。人工智能的发展依赖三个要素:算法、平台和数据。像AlphaGo Zero一样,人工智能如果使用合适的算法,并改进算法,降低其对数据与平台计算能力的依赖,有助于其推广和应用。

中国科学院自动化研究所复杂系统管理与控制国家重点实验室任主任王飞跃表示,大家应该理性看待AlphaGo Zero的研究成果。Deepmind公司的这一论文一发表,TPU的销量可能就要大增了。他说,AlphaGo的程序的确越来越简洁、有效。但那种“看了AlphaGo Zero,就认为人类经验没用了,人工智能已经超过人类智力”的观点不正确。

他认为,在所有“规则界定得非常清楚,而且规则中包含了所有信息”的任务中,机器或程序都应超过人类。正如汽车会跑得比人快,飞机会飞得比人高。而人工智能在应用中面临更多挑战的是那些规则不清,或者规则清楚但不包含所有信息的事情。在军事国防,社会经济,特别是日常生活的很多应用场景都是这样,人为界定出来的规则可以非常简化,但无法确定所有信息,比如交通规则。这时候,人工智能会做一个好的安全且有效决策吗?

王飞跃表示,真正智能的是AlphaGo Nothing,即人类,为定规则而生。而机器是为执行而造的。

此外,他认为,AlphaGo Zero 以100:0的成绩,战胜AlphaGo Master,其结果十分令人鼓舞,但有误导,且有"造"真的嫌疑。“这让我想起成语‘自相矛盾’。”

    校对:丁晓
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈