下载客户端

AlphaGO想赢得李世石需要具备什么条件？

澎湃新闻记者徐明徽

2016-03-09 11:21

来源：澎湃新闻

有着2500多年历史的围棋，一直被视作计算机最难以攻克的大众棋类。但现在，这一人工智能研究领域的“拦路虎”，开始遭遇强劲挑战。

Google旗下的人工智能公司DeepMind开发的AlphaGo机器人不久之前击败了欧洲围棋冠军欧洲围棋冠军、职业二段樊麾，《Nature》杂志以封面论文的方式报道了这一人工智能领域的里程碑。今天中午12点，AlphaGo将向世界顶级围棋选手、韩国九段李世石发起挑战。机器人的智慧是否能超越人类即将揭晓。

如何形象生动地理解AlphaGo的下棋方式呢？

北京航空航天大学自动化科学与电气工程学院副教授秦曾昌介绍：我们可以把人工智能想象成一个电脑程序，对智能机器来讲，它把人工智能下棋的过程看做是一个特别巨大的空间搜索，它想找到一个有效的路径，这个路径就是怎么和人来回下棋的步骤。

AlphaGo是怎么学会下棋的？秦曾昌用了一个简单的棋类游戏来阐述AlphaGo的基本原理。这个游戏名为Tic-Tac-Toe，实际上是个九宫格，九宫格有两个棋手，轮流在九宫格中下子。假设人类选手选择黑子，计算机选择红子。每一步的棋盘，我们称为“状态”（stage）。人类下了第一步黑子后，计算机就还剩下周围8个地方可以选择，把棋下到哪个位置，我们成为“行动”（action），假设计算机随机选取一个位置，就还剩下6种可能。你会发现对弈的过程实际上就是一个大的搜索空间中的树状结构。下棋就可以理解为在大的搜索空间中找到一条有效的路径。

这种搜索路径就是用神经网络实现的，所以被称为“策略网络”（policy network），策略网络使用的是“监督学习”（supervised learning），实际上是利用人类的知识，给出状态：人一般会选择落子在哪个位置。

AlphaGo把这个状态评估叫做value function，它把这个状态看作一个图像，用神经网络去训练，不同的状态之后会输出最后一个value的值，所以这个神经网络被称为value network（价值网络）。

对19×19的围棋来讲，就是361，人类棋手落下一子后，人工智能就有360个选择；人类再下一步，人工智能又有358种选择，这样的选择，实际的搜索空间是极其巨大的。

AlphaGo采用了40个线程的1202个CPU和176个GPU，这是个非常大的计算量。如果需要战胜李世石，需要具备几个条件，首先要看对李世石了解有多深（即对于高水平棋手，人工智能有多少训练数据），如果AlphaGo有足够多的高水平棋手的数据，再采用这种算法策略，则赢面会很大。

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#人工智能