下载客户端

AI玩赛车游戏登上Nature封面，击败人类冠军

2022-02-11 16:16

来源：澎湃新闻·澎湃号·湃客

原创 ZeR0 智东西收录于话题 #人工智能 542个

索尼AI上演“速度与激情”：不仅智商超群，还懂体育精神。

编译 | ZeR0

编辑 | 漠影

新的索尼大法来了！

智东西2月10日报道，今日，索尼AI部门Sony AI重磅宣布，其AI程序击败了世界上最顶级的赛车游戏选手，并登上国际学术顶刊Nature的封面。

论文链接：

https://www.nature.com/articles/s41586-021-04357-7

这是继AI在扑克、象棋、围棋、星际争霸、DOTA等游戏击败人类冠军选手后，游戏AI实现的又一里程碑。

作为全球首个能够在高度拟真赛车模拟游戏中战胜最强人类选手的赛车AI智能体，索尼的赛车游戏AI GT Sophy仅用一两天磨练战术和技巧，就做到了超过赛车模拟游戏《GT赛车》中可以击败95%的人类玩家。在训练总计45000小时后，这个AI程序已经能与顶级GT赛车玩家一较高下。

相比此前AI已经掌握的棋牌类游戏及部分多人策略游戏，《GT赛车》更加复杂，因为它高度模拟现实世界，每辆车、每条轨道都经过建模，视觉、音频以及动态方面全部尽可能地还原现实世界的驾驶体验。

这使得AI必须具备极强的持续判断和快速反应能力，在高速变动的条件下，综合考量摩擦、空气动力学、驾驶路线、速度、方向等各种因素，在距离对手几英寸的范围内，对具有复杂非线性动力学的车辆进行实时控制，并知道如何在不违规的前提下超越对手。

“在一场正面竞赛中如此超越杰出的人类车手，是AI领域的一项里程碑式成就。”共同撰文的斯坦福大学汽车研究中心联席主任克里斯·格迪斯（Chris Gerdes）教授相信，用于开发该AI的技术有望在自动驾驶汽车软件中发挥作用。

GitHub链接：

https://sonyai.github.io/gt_sophy_public/

01.

比玩星际争霸更强的智能体，

精通控制、战术和礼仪

GT Sophy研究项目启动于2020年4月，是一个使用新型深度强化学习平台进行训练的自主AI智能体，也是Sony AI自2019年11月成立以来一直致力于应对的关键挑战之一。

Sony AI以日本、美国和欧洲三地为据点，重点推进游戏、成像、传感三个AI旗舰项目。Sony AI全球负责人北野弘明还曾放言：“到2050年，要让 AI 凭自己的科研成果拿下诺贝尔奖！”

而今日登上Nature封面的赛车游戏AI，正是Sony AI韬光养晦、筹谋已久的大招！

过去两年间，Sony AI团队、《GT赛车》系列背后的游戏开发工作室Polyphony Digital（PDI）以及索尼互动娱乐（SIE）的云游戏团队密切合作，使用SIE管理的云游戏基础设施训练这个AI。

为了尽可能重现现实世界的赛车环境，PDI为PlayStation 4创建了超现实主义驱动模拟器GT Sport，并提供API访问。

GT Sport配备了一些最新的汽车动力学模拟，逼真地还原了赛车、赛道乃至空气阻力、轮胎摩擦等物理现象，并在汽车制造商的指导下严扣从车身曲线、车身面板间隙到大灯形状等每个细节。

该模拟器是与国际汽联合作设计的，在全球拥有超过40万人的电子竞技社区，它带来了一个具有明确规则和判断标准的公平赛车环境。

GT Sophy即是在这个终极模拟环境中训练而出，同样，分布式训练平台DART也对于该AI新成果功不可没。

基于这个定制平台，Sony AI研究人员能在SIE云游戏平台的PlayStation 4控制台上训练GT Sophy。

DART允许研究人员轻松指定实验，在云资源可用时自动运行，并收集可以在浏览器中查看的数据。此外，该平台还管理PlayStation 4控制台、代理计算资源和GPU，用于跨数据中心的训练。

它能访问1000多个PlayStation 4控制台，每个都用于收集训练GT Sophy的数据或评估训练有素的版本。该平台由必要的计算组件（GPU、CPU）组成，用于与大量PlayStation 4进行交互，并支持长时间的大规模训练。

DART使得Sony AI的研究团队能够同时无缝运行数百个实验，并探索将GT Sophy提升到更高水平的技术。

在这些基础设施的支持下，仅在一两天内，GT Sophy就做到超过GT Sport中约95%的选手。经过10天、总计45000小时的驾驶学习，GT Sophy在所有三条赛道上取得了超人般的计时赛表现。

为了验证这个赛车游戏AI的实力，研究人员让GT Sophy在2021年7月2日和10月21日举行的“2021赛车挑战赛”中，与世界上最优秀的四名GT赛车手同台竞技，并成功超过这些顶级人类选手。

02.

顶级赛车游戏AI是怎样炼成的？

为了打造出超强赛车游戏AI，Sony AI研究人员和工程师开发了创新的强化学习技术，包括一种名为Quantitile-Regression Soft Actor-Critic（QR-SAC）的新训练算法、一种可以理解的赛车规则编码，以及一种促进获得细微的赛车技能的训练方案。

深度强化学习是街机游戏、国际象棋、围棋等复杂策略游戏及其他实时多人策略游戏中大多数AI里程碑的关键组成部分，特别适合开发游戏AI智能体，因为强化学习智能体会考虑其行为的长期影响，并能在学习期间独立收集自己的数据，从而避免了对复杂、手工编码的行为规则的需求。

而处理《GT赛车》等复杂领域，需要同样复杂和微妙的算法、奖励和训练场景。

AI从多个《GT赛车》游戏中获取信息，通过最大化快速跑圈的奖励和最小化碰撞的惩罚等方式来学会如何取胜。比如，如果它超过另一辆车就会获得一定权重的奖励，但出现抄近路、碰撞、打滑等事故则受到惩罚。

GT Sophy在《GT赛车》的三种汽车和赛道组合上接受了多种场景的训练。其中一些只有AI智能体在赛道上，而另一些则增加了7个正常游戏的NPC对手。每次赛道位置、起始速度、汽车之间的间距以及对手的技能水平都是随机的。

通过持续学习和积累经验，GT Sophy掌握了赛车控制、赛车战术和赛车礼仪的技能。

（1）赛车控制：赛车本质上是试图驾驶处于控制边缘或行驶更远地方的汽车。估计制动点、找到最佳路线、寻找抓地力以最大限度地提高速度和控制力等，本身就是非常有趣的机器学习问题。

一种新的算法QR-SAC明确推理了GT Sophy高速行动的各种可能结果。解释驾驶动作的后果和其中的不确定性，有助于GT Sophy在车体极限上通过弯道，并在与不同类型的对手比赛时考虑复杂的可能性。

我们来看一个展示GT Sophy极限驾驶技能的例子，在没有接触的情况下，智能体可驾驶通过一系列紧贴墙壁的弯道行驶。

（2）赛车战术：车手需能在高速变化的赛车情况下快速做出决策，到线路超过对手，同时考虑到对手对超车尝试的反应。虽然AI智能体可以收集自己的数据，但训练尾流超车（slipstream passing）等特定技能需要对手处于特定位置。

为了解决这个问题，GT Sophy的学习包括使用在每条赛道上可能至关重要的人工比赛情况进行混合场景训练，以及帮助智能体学习这些技能的专门对手。这些技能培养场景帮助GT Sophy获得了专业的赛车技术，包括处理拥挤的起跑、弹弓式尾流超车，甚至防御机动。

▲GT Sophy利用急转弯成功超车人类赛车手

（3）赛车礼仪：车手需要遵守具体规则，以限定赛车可以滑出赛道的程度，以及在发生碰撞时谁应该背责。与此同时，车手需要积极开车才能获胜，找到正确的平衡是一大挑战。

为了帮助GT Sophy学习运动礼仪，Sony AI研究人员找到了将成文和不成本比赛规则编码为复杂奖励功能的方法。研究团队还发现，有必要平衡对手的数量，以确保GT Sophy有竞争性的训练比赛，同时不会对人类竞争变得过于激进或胆怯。

例如，GT Sophy在不堵塞驾驶线路的情况下超过了人类车手，给他们留下了足够的机动空间，展示出公平和体育精神。

这些特性，使得GT Sophy与此前在一些经典游戏中击败人类冠军的早期AI智能体区分开来。

国际象棋、围棋等属于完全信息类游戏，AI无需掌握现实世界的物理，只需专注于游戏策略。即便是玩星际争霸的AlphaStar和Dota的OpenAI Five，也没有试图掌握现实世界的物理学。

而现在，GT赛车就在试图模拟现实世界，因此其战术、策略和礼仪都至关重要，更难的是，AI需要在汽车在物理极限加速时具备这些技能。

03.

还能应用于机器人、无人机和自动驾驶

就像其他打败人类冠军的AI一样，GT Sophy的价值可不仅局限于玩游戏。

在GT Sophy的开发过程中，研究人员定期与顶级驱动程序互动，以测试最新版本。

“索菲的赛车路线是人类车手永远想不到的。”《GT赛车》的创造者、现实生活中的赛车手Kazunori Yamauchi说，这项技术将成为其未来版本游戏的一部分，并有望帮助新手和专业司机提高他们的技能。“我认为很多关于驾驶技能的教科书都将被重写。”

GT Sophy也带给了顶级人类车手新的灵感。FIA Gran Turismo锦标赛2018年冠军Igor Fraga称赞说：“GT Sophy向我们展示了我们之前从未想象过的新可能性。”

赢得电子竞技赛车赛事前所未有“三冠王”的日本顶级选手Takuma Miyazono，从4岁就开始玩虚拟赛车，但他从未遇到过像GT Sophy这样的赛车手。“Sophy非常快，圈速比最好的车手的预期要好。”他认为，看到Sophy，有些动作才成可能。

FIA Gran Turismo锦标赛2020年世界决赛选手Emily Jones亦受到GT Sophy的启发，她在Dragon Trail上的圈速是107.964秒，而AI的圈速是106.417秒。

▲Emily Jones

“在某些弯道上，我把车开得很大，然后倒车，而AI则把车开得很近，所以我学到了很多关于线路的知识。还知道该优先考虑什么。以进入第1个弯道为例，我刹车的时间比AI晚，但AI会比我有一个更好的出口，并在下个弯道打败我。直到我看到AI，我才意识到这一点，并认为「好吧，我应该这么做。」”Emily Jones说。

更重要的是，这一研究突破将引发一场关于无人驾驶汽车使用的最佳计算方法的辩论。

Sony AI全球负责人北野宏明谈道，GT Sophy的目的不仅是超越人类玩家，而是为玩家提供一个具有刺激性的对手，加速并提升玩家的技术和创造力。为GT Sophy开发的AI算法可能也适用于无人机、机器人等其他类型的机器。

“除了为游戏社区做出贡献外，我们相信这一突破也为自动赛车、自动驾驶、高速机器人和控制等领域带来了新的机遇。”北野宏明说。

▲Sony AI CEO北野宏明

丰田研究所人类中心驾驶研究高级经理阿维纳什·巴拉昌德拉（Avinash Balachandra）认为：“在赛车中使用机器学习和自动控制是令人兴奋的。”该研究所正在测试能够在极端速度下运行的自动驾驶汽车。他说，丰田正在研究“人类放大技术，利用专家从赛车运动中学习的技术，有朝一日可以改善主动安全系统”。

马萨诸塞大学阿姆赫斯特分校研究强化学习的教授布鲁诺·卡斯特罗·达席尔瓦（Bruno Castro da Silva）评价GT Sophy是“一项令人印象深刻的成就”，是朝着为自动驾驶汽车训练AI迈出的重要一步。

但他认为，从《GT赛车》到现实世界将是一个挑战，因为像GT Sophy这样的强化学习算法很难考虑决策的长期影响，而且也很难保证这些算法的安全性或可靠性。

“如果我们希望这样的AI系统在现实生活中部署，安全保障是最重要的。”da Silva说，“缺乏安全保障，是基于机器学习的机器人尚未广泛应用于工厂和仓库的主要原因之一。”

04.

结语：AI与游戏玩家的双重胜利

在评价这一研究进展时，索尼集团董事长、总裁兼CEO吉田宪一郎说：“索尼的宗旨是「通过创造力和技术的力量，让世界充满情感」，而GT Sophy就是这一理念的完美体现。”

总体来看，赛车游戏AI不仅展现了AI如何学习在复杂情况下工作策略的技术进展，也展示出AI如何为玩家提供新的游戏体验。

据悉，Sony AI和PDI将探索如何将GT Sophy集成到《GT赛车》系列的未来版本中。Polyphony Digital总裁Kazunori Yamauchi相信，这一AI概念将促进游戏和汽车的未来。

来源：Sony AI，Nature，Ars Technica，Wired