澎湃Logo
下载客户端

登录

  • +1

谷歌又搞出了新围棋AI

2019-12-03 14:35
来源:澎湃新闻·澎湃号·政务
字号

当初谷歌DeepMind的阿尔法狗横空出世,使人类领教到了现代AI的恐怖潜力。从那时起,每隔几个月DeepMind就会推出一篇重磅论文,从阿尔法狗到阿尔法零,进步之速令观者咋舌。

或许正是因为DeepMind的AI技术阶段性突破频繁,逐渐令大众产生了审美疲劳。几天前,谷歌又搞出了一个MuZero,而关心者人数就已不及当初。

症结或许在这里:在棋艺上,阿尔法狗已经完虐人类了,之后阿尔法零又完虐了狗,以后肯定又会出现新的AI完爆阿尔法零……如此以往,没啥新意啊。此外,超越人类是一个坎,至于之后又胜过人类上万倍还是百万倍,都难以对公众形成刺激。

好吧,说了这么多,MuZero到底有啥特殊之处呢,值得单独拿出来说一说?

简单梳理一下。

最开始的阿尔法狗向人类学习围棋,最终超越了人类。我们或许可以将它看做是人类围棋的顶峰。

随后,阿尔法零在仅仅知道规则的情况下,自己演化围棋棋理,最终超越了狗。它是第一位真正意义上的AI围棋大师,所取得的成就与人类围棋的历史毫无关系。

到MuZero,它压根不知道什么围棋!就是在棋盘上胡乱摆放棋子,工程师在几个节点稍微诱导一下,使它产生偏向性。最终,MuZero发明了围棋!

除了发明围棋外,它还以更快的速度发展出更加高明的棋理。它是AI世界中的围棋创造者。

直观上,MuZero具有内部驱动力——精确设计游戏规则的动力。

正如DeepMind研究人员所解释的那样,强化学习的一种形式——模型是MuZero和AlphaZero的核心技术,其中的奖励系统将AI带向目标。

通常,基于模型的强化学习侧重于直接在像素级别对观察流进行建模,但是这种粒度级别在大规模的情景计算中非常昂贵。从根本上说,MuZero会接收观察结果(即Go木板或Atari屏幕的图像)并将其转换为隐藏状态。 该隐藏状态通过接收先前状态和假定的下一个动作的过程进行迭代更新,并且在每个步骤中,模型都会给出对策(例如,下棋),价值函数(例如,预期的获胜者)和奖励(例如,通过打法得分)。

MuZero与阿尔法零对弈,前者的搜索步数更少却更加精妙,因为它对围棋的理解更深。它不仅比阿尔法零更强大,而且在架构上更简单,更高效。

DeepMind认为,现实生活中的许多问题(如股票,军事行动)都没有明确的规则,或者规则随时变动。所以,需要未来的决策AI自行摸索。这就是他们的研发方向。

本文译自 venturebeat,由译者 majer 基于创作共用协议(BY-NC)发布。

原标题:MuZero:重新发明了围棋的AI

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈