DeepMind的人工智能代理在《星际争霸2》中征服了人类职业玩家

【烽巢网-科技PRO】

DeepMind的人工智能代理在《星际争霸2》中征服了人类职业玩家-锋巢网

谷歌旗下DeepMind开发的人工智能代理在《星际争霸2》中击败了人类职业选手，这是人工智能领域的第一次。在YouTube和Twitch上的一系列比赛中，AI玩家连续10次击败人类。在最后一场比赛中，职业选手格里戈尔兹·“曼娜”·科明兹为人类赢得了一场胜利。

DeepMind的研究联席负责人戴维•西尔弗(David Silver)在赛后表示:“人工智能的历史被打上了许多重大的标杆性胜利的印记。”“我希望——尽管显然还有工作要做——未来的人们可能会回顾(今天)，或许会认为这是人工智能系统所能做的又向前迈进了一步。”

在电子游戏方面打败人类似乎是人工智能开发中的一个小插曲，但这是一个重大的研究挑战。像星际争霸2这样的游戏比像国际象棋或围棋这样的棋盘游戏更难玩。在电子游戏中，人工智能代理无法通过观察每一块棋子的移动来计算下一步棋，它们必须实时做出反应。

DeepMind的人工智能代理在《星际争霸2》中征服了人类职业玩家-锋巢网

这些因素似乎对DeepMind被称为AlphaStar的人工智能系统并不构成多大障碍。首先，它打败了职业球员达里奥·温什(Dario“TLO”Wunsch)，然后开始恢复法力。奥运会最初于去年12月在DeepMind的伦敦总部举行，但今天与MaNa的最后一场比赛进行了直播，为人类提供了唯一的胜利。

职业星际争霸评论员形容AlphaStar的表现是“非凡的”和“超人的”。在《星际争霸2》中，玩家在建立基地、训练军队和入侵敌人领土之前，会从同一地图的不同侧面开始。AlphaStar尤其擅长所谓的“微观管理”，即在战场上快速、果断地控制部队的能力。
尽管人类玩家有时能够训练出更强大的单位，AlphaZero还是能够在近距离内智胜他们。在一场游戏中，AlphaStar用一个名为“跟踪者”的快速移动单位获得了大量法力。评论员凯文·“鹿特丹”·范德库伊(Kevin“RotterdaM”van der Kooi)将其描述为“非凡的单位控制，只是我们不太常见”。曼娜在赛后说:“如果我和任何人比赛，他们都不会对跟踪者这么好。”

这与我们在其他高级游戏AI中看到的行为相呼应。当OpenAI的经纪人去年在Dota 2与人类职业选手比赛时，他们最终被击败了。但专家们指出，这些特工再次以一种“清晰而精确”的方式进行表演，这是一种“催眠”。毫不奇怪，快速做出没有任何错误的决定是机器的本分。

专家们已经开始仔细分析这些比赛，并就AlphaStar是否拥有任何不公平优势展开辩论。这位人工智能特工在某些方面步履蹒跚。例如，它被限制在每分钟执行比人类更多的点击。但与人类玩家不同的是，它能够一次查看整个地图，而不是手动导航。
DeepMind的研究人员表示，这并没有提供真正的优势，因为该代理在任何时间只关注地图的一个部分。但是，正如比赛所显示的那样，这并没有阻止AlphaStar同时熟练地控制三个不同区域的单位——评论员们表示，这对人类来说是不可能的。值得注意的是，当MaNa在直播比赛中击败AlphaStar时，AI使用的是受限的摄像机视角。

另一个潜在的痛处是，人类运动员虽然是专业运动员，但却不是世界冠军的标准。TLO还必须玩星际争霸2中他不熟悉的三个种族中的一个。

DeepMind的人工智能代理在《星际争霸2》中征服了人类职业玩家-锋巢网

撇开这个讨论不谈，专家们说这场比赛是向前迈出的重要一步。Dave Churchill，一个长期参与星际争霸AI场景的AI研究人员，告诉the Verge:“我认为代理的力量是一个重大的成就，至少比我在AI研究人员中听到的最乐观的猜测提前了一年。”

然而，邱吉尔补充说，由于DeepMind尚未发布任何关于这项工作的研究论文，因此很难说它是否显示出任何技术上的飞跃。邱吉尔说:“我还没有读过这篇博客文章，也没有接触过相关的论文或技术细节。”

乔治亚理工学院(Georgia Tech)人工智能副教授马克?里德尔(Mark Riedl)表示，他对结果不那么惊讶，这场胜利只是“时间问题”。里德尔补充说，他不认为这些游戏表明星际争霸II已经被彻底打败。“在上一场直播的比赛中，把AlphaStar限制在窗口确实消除了它的一些人为优势，”里德尔说。“但我们看到的更大的问题是……”他说:“人工智能的问题在于，(人工智能学到的)政策是脆弱的，当一个人可以把它推出舒适区时，它就会崩溃。”

最终，这类工作的最终目标不是在视频游戏上打败人类，而是改进人工智能训练方法，尤其是为了创建能够在《星际争霸》等复杂虚拟环境中运行的系统。

为了训练AlphaStar, DeepMind的研究人员使用了一种被称为强化学习的方法。经纪人基本上是通过反复尝试来达到某些目标，比如赢球或者仅仅是活着。它们首先通过模仿人类玩家来学习，然后在类似竞技场的比赛中相互比赛。最强的药剂存活下来，最弱的被丢弃。DeepMind估计，它的AlphaStar代理每一个都以这种方式积累了大约200年的游戏时间，游戏速度也在加快。

DeepMind很清楚自己开展这项工作的目标。“首先，也是最重要的是，DeepMind的任务是建立一个人工通用智能系统，”AlphaStar项目的联合负责人奥里尔·维尼亚斯(Oriol Vinyals)说。“要做到这一点，重要的是对我们的代理在各种任务上的表现进行基准测试。”

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30