澎湃Logo
下载客户端

登录

  • +1

AlphaGO想赢得李世石需要具备什么条件?

澎湃新闻记者 徐明徽
2016-03-09 11:21
来源:澎湃新闻
文化课 >
字号

有着2500多年历史的围棋,一直被视作计算机最难以攻克的大众棋类。但现在,这一人工智能研究领域的“拦路虎”,开始遭遇强劲挑战。

Google旗下的人工智能公司DeepMind开发的AlphaGo机器人不久之前击败了欧洲围棋冠军欧洲围棋冠军、职业二段樊麾,《Nature》杂志以封面论文的方式报道了这一人工智能领域的里程碑。今天中午12点,AlphaGo将向世界顶级围棋选手、韩国九段李世石发起挑战。机器人的智慧是否能超越人类即将揭晓。

如何形象生动地理解AlphaGo的下棋方式呢?

北京航空航天大学自动化科学与电气工程学院副教授秦曾昌介绍:我们可以把人工智能想象成一个电脑程序,对智能机器来讲,它把人工智能下棋的过程看做是一个特别巨大的空间搜索,它想找到一个有效的路径,这个路径就是怎么和人来回下棋的步骤。

AlphaGo是怎么学会下棋的?秦曾昌用了一个简单的棋类游戏来阐述AlphaGo的基本原理。这个游戏名为Tic-Tac-Toe,实际上是个九宫格 ,九宫格有两个棋手,轮流在九宫格中下子。假设人类选手选择黑子,计算机选择红子。每一步的棋盘,我们称为“状态”(stage)。人类下了第一步黑子后,计算机就还剩下周围8个地方可以选择,把棋下到哪个位置,我们成为“行动”(action),假设计算机随机选取一个位置,就还剩下6种可能。你会发现对弈的过程实际上就是一个大的搜索空间中的树状结构。下棋就可以理解为在大的搜索空间中找到一条有效的路径。

这种搜索路径就是用神经网络实现的,所以被称为“策略网络”(policy network),策略网络使用的是“监督学习”(supervised learning),实际上是利用人类的知识,给出状态:人一般会选择落子在哪个位置。

AlphaGo把这个状态评估叫做value function,它把这个状态看作一个图像,用神经网络去训练,不同的状态之后会输出最后一个value的值,所以这个神经网络被称为value network(价值网络)。

对19×19的围棋来讲,就是361,人类棋手落下一子后,人工智能就有360个选择;人类再下一步,人工智能又有358种选择,这样的选择,实际的搜索空间是极其巨大的。

AlphaGo采用了40个线程的1202个CPU和176个GPU,这是个非常大的计算量。如果需要战胜李世石,需要具备几个条件,首先要看对李世石了解有多深(即对于高水平棋手,人工智能有多少训练数据),如果AlphaGo有足够多的高水平棋手的数据,再采用这种算法策略,则赢面会很大。

    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈