下载客户端

谷歌DeepMind团队告诉你：人工智能是如何学坏的

澎湃新闻记者柴宗盛实习生史诗

2017-02-15 11:12

来源：澎湃新闻

∙ 澎湃研究所 >

很难想象，达到人类等级的人工智能会如何造福人类，同样也难以想象不恰当地使用它，会酿成什么样的恶果。

AI有做坏事的本领，在空战模拟器上，阿尔法人工智能程序在与美国空军退休上校吉恩•李的较量中，获得完胜。此类例子已经不胜枚举。

所以，如何使用机器人是个大问题。即便你为机器人设定了一个目的纯良的任务，但机器人在实现目标的过程中，如何选择实现路径仍然是个问题，它会不会为达目的而不择手段呢？

因此，为考验AI在两难境地下如何做出策略选择，谷歌的 DeepMind 团队进行了针对性实验，实验中的两款游戏都是以博弈论的囚徒困境理论为基础开发的。

囚徒困境是指两个共谋犯罪的人被关入监狱，不能互相沟通。如果两个人都不揭发对方，则由于证据不确定，每个人坐牢一年；若一人揭发，而另一人沉默，揭发者立即获释，沉默者入狱五年；若互相揭发，则因证据确实，二人都判刑两年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。这一经典理论说明了即便合作对双方都有利，但合作仍然是困难的。

DeepMind为此设计的第一款游戏名为“采集”。他们将一个以“收集水果”为目的的电脑游戏运行了4000万次，并要求两个AI互相竞争，看谁能收集更多的虚拟苹果。

他们发现，在有足够的苹果时AI还相安无事，但随着苹果减少，两个AI就有攻击性了。为了将对手踢出游戏，独吞所有苹果，它们开始使用激光束来攻击对手。

有趣的是，AI用激光束攻击对手获得成功的行为并不能直接获得奖励。它只是让对手在游戏中消失一会儿，以便自己可以收集更多的苹果。

如果两方AI都不使用激光束，理论上他们可以平分所有的苹果。这是“没那么聪明”的旧版本AI所作的选择。

随着谷歌团队测试形式的愈加复杂，DeepMind也变得更贪婪、更具侵略性和攻击性。

“在苹果相对丰富的环境中，彼此攻击的代价更大，因此AI会采用更温和的策略。在苹果较少时，AI击败对手独吞苹果的贪婪欲望就出现了。”

第二个游戏叫作“狼群”。这一次，有三个人工智能参与——它们中的两个扮演狼，另一个扮演猎物。

和前一个游戏不同的是，这个游戏鼓励合作。如果猎物被捕获时，两只狼在都在猎物旁边，他们都会得到奖励——不论哪一只抓获了猎物。

“这是捕猎有风险性的观点——一只独狼可以战胜猎物，但可能会因食腐动物的抢夺而丢掉这份战利品”，该团队在他们博客的文章中解释道。

“然而，当两只狼一同捕猎时，它们可以更好地对抗食腐动物，保护手中保护猎物，因此得到更高的回报。”

因此，在第一个游戏中，AI认识到侵略和自私可以获得最有利自己的结果；从“狼群”游戏中，它们也学习到，有时合作会对自己更有利。

通过以上实验，也让我们得出一个结论：AI 会根据自己所处的环境进行抉择。