赢了世界冠军不意外和AI在DOTA中并肩作战才让人又纠结又兴奋

发表于 6年以前 | 总阅读数：661 次

OpenAI CTO Greg Brockman 和 OG 战队五位成员的合影

“OpenAI Five”首先对阵了 2018 年 DOTA2 世界邀请赛（Ti 8）冠军 OG 战队，在三局两胜的比赛中以 2：0 完胜 OG 战队。接下来，OpenAI 安排了人机合作比赛，双方都是两名人类选手和 3 个 AI —— 这部分比赛非常耐人寻味，我们猜测人类选手和 AI（如果有思维的话）都会在心里想：我这几个队友是怎么回事、怎么老是和我节奏不一样、这比赛还让人怎么玩。最后，OpenAI 宣布，这个 DOTA2 AI 将会对全世界的 DOTA2 玩家免费开放，下周起就可以体验。

表演赛 Part 1 - “OpenAI Five”vs OG 战队

在去年七八月的表演赛中，“OpenAI Five”就曾在 5v5 比赛中击败人类高水平玩家乃至（前）职业选手。虽然 AI 没能赢下所有场次的比赛，但 AI 的各种亮眼操作（以及 AI 让人摸不着头脑的随地插眼的做法）仍然给大家留下了深刻的印象。在比赛告一段落后，OpenAI CTO Greg Brockman 继续在推特上更新着“OpenAI Five”的最近进展，甚至表示最新的版本已经能够以高胜率击败公开展示过的几个版本了。这样一来，继续优化到今天，尤其是 Greg Brockman 表示“OpenAI Five”在游戏中的训练时间相当于 4 万 5 千年那么长，在今天的比赛中完胜了人类职业战队的世界冠军 OG 战队也就不令人意外了。

需要说明的是，目前最新的“OpenAI Five”仍然使用的是和 Ti8 表演赛中一样的规则：一共 18 个英雄供双方选择，不允许使用圣剑和魔瓶，不允许使用召唤物和幻象。我们似乎更有理由相信 AI 在这样的设定下获胜是合理的：在这个复杂度降低的设定中，AI 经过了足够长时间的训练，已经可以逼近某个最优解了 —— 相比之下人类职业选手就肯定不习惯这样的设定了，仅英雄选择一方面就大大限制了人类选手的发挥。

另一方面，去年表演赛结束后我们结合 OpenAI 公开的资料分析过“OpenAI Five”的设计方式，结合今天“OpenAI Five”的表现来看，他们很有可能是维持了同样的模式，最大的改进在于更多的训练时间。

在第一局中，OG 阵容选出的阵容是小牛、巫医、隐刺、毒龙、影魔，“OpenAI Five”为冰女，死亡先知，火枪，矮人直升机，流浪剑客。一选时“OpenAI Five”预估的自己的胜率为 65.1%，全部选择完毕之后还继续上升到了 67.6%。

比赛一开始 AI 方就在天辉上路赏金符处拿到了一血，然后在公屏打字“我们预期赢得这场比赛的胜率超过 80%”（就和去年的表演赛一样）。AI 方的线上进攻依旧主动凶狠，即便 OG 有小牛在各路积极游走和保护、而且 AI 方也没有针对隐刺买眼买粉而让他占了不少便宜，双方在前十几分钟仍然打得势均力敌。随着比赛进行，AI 方的经济和击杀数逐渐建立起优势，最终 38 分钟时夜魇方基地被攻破，AI 方与 OG 的人头比为 52：29。

第二局比赛中 OG 阵容为火枪、小牛、死亡先知、小鱼人、恶魔巫师，“OpenAI Five”阵容为冰女、矮人直升机、流浪剑客、巫医、毒龙。这次“OpenAI Five”选人完毕时的预测胜率只有 60%，但 OG 在对线期就打出了很大劣势，最终这局比赛 14 分钟上高地、 20 分钟就以 45：6 的人头比结束了。这一点想起来很有趣：“OpenAI Five”认为这次开局时自己的优势不如上一局大，但针对的是自己在操作这样阵容的情况做出的判断，显然没有预料到人类的表现和自己大有不同。

AI 也继续展现了亮眼的团战操作。比如下面动图，第一局比赛中 OG 小牛和隐刺绕后冰女，结果在 AI 的火枪配合下隐刺和巫医双双被反杀，OG 的影魔也葬身之后才最终带走了冰女。

第二局中，AI 的冰女利用暗影护符和地形卡视野黑血秀 OG 的矮人狙击手，并成功反杀。

AI 当然也继续表现出了秒沉默之类的快速反应，但其实除了这些之外，更令人意外的是“OpenAI Five”表现出的比赛风格。比如所有英雄都会正常发展自己的经济，冰女甚至几分钟时就会自己打野，可以说这和中国 DOTA 战队中常见的“四保一”打法形成鲜明对比，在前中期团战时发挥出了不小威力；等级低时 AI 的英雄经常死亡后立即买活，简直像是人类玩家在赌气。

两局比赛结束后，OpenAI 还透露，在准备今天表演赛的过程中 OpenAI 还邀请了三支一线 DOTA2 战队尝试挑战 AI，全部都以 2：0 负于“OpenAI Five”。OG 战队今天的表现，对 OpenAI 来说可以说是完全在预料之中了。

表演赛 Part 2 - 人类和“OpenAI Five”并肩作战

不知道大家是否记得，2017 年五月 AlphaGo Master 在中国乌镇对局柯洁的时候，在同一个峰会中也安排了人类棋手和 AlphaGo 的配对赛，古力和连笑两位棋手分别和 AlphaGo 组成小组，双方对局中人类和 AlphaGo 轮流落子。两位棋手赛后都表示 AlphaGo 和自己的思路、风格不一样，经常下出让自己感到意外的棋来 —— 类似的事情自然也会在今天的“OpenAI Five”表演赛中出现。

人机合作比赛双方都是两名人类选手和 3 个 AI，四位人类选手都是游戏解说，所以作为表演赛，他们就像直播一样，一边比赛一边对着所有观众说出自己的所想。在解说们这种边玩边吐槽、也边玩边期待 AI 和自己配合的过程中，大家对这个 AI 都有了很多全新的感受：

最根本的，其实 AI 并不知道自己的队友有一些不是 AI，它仍然会好像自己的队友都是和自己一样的 AI 那样去处理，也许 AI 也会觉得不适应？但反过来，即便人类控制的英雄已经出现过很多低级错误，我们相信 AI 仍然可以像相信 AI 队友那样地相信他。
对出击策略的把握有很大区别，人类选手在河道吃了隐身符准备对对方中路英雄发动攻击的时候，自己中路的 AI 却径直去了边路；人类选手表示很郁闷。
人类无法捉摸 AI 的步调，不知道 AI 是否认为己方是优势、是否应该主动攻击。那么理想情况下人类应该如何和 AI 沟通呢，肯定不会总是听人类的、也不会总让 AI 带领节奏。实际上 AI 有时候会直接打字告诉人类自己的决定（比如自己要打 1 号位），但是对人类发的信息就不怎么做出反应（简直像是人机交互的负面案例）

和以前一样，AI 的插眼方式很奇怪 —— 这可能是相比去年的版本，唯一没有显著提升的方面，我们完全可以猜测这是因为训练插眼时用的反馈仍然是“要留出空格子来”。Blitz 甚至直接问“上路到底发生什么了，为什么地上插了 4 个眼？？？”另一方的人类选手 Sheever 说：“我们的 AI 总把眼插在奇怪的地方，但是我想插都买不了，一直在冷却。”（后来 AI 在这里又插了一个眼，一共 5 个）
AI 对某些英雄的理解和人类完全不同。比如 AI 认为死亡先知在十到二十分钟的时间段内是一个非常强的英雄，会让它非常积极地使用技能、参与团战。但人类就会认为这时候的死亡先知并不厉害。
有观战者根据 AI 的表现猜测影响 AI 战场决策最重要的因素是站位和技能冷却；同时 AI 也确实会考虑自己队友的位置。也所以，人机合作比赛的节奏要明显慢于五人都是 AI 的状况 —— 两个人类队友的位置和其它三个 AI 的节奏不一致，它们的集体组队进攻也就没有那么积极果断了。
AI 在树丛里找人的技术好像不怎么样，当然了这件事本来学起来也比较难。另外人类也很难在和 AI 对局的时候练习这个方面，人类在逃命的时候会有一些“下意识”的操作，但是很难说 AI 的处理方式是出于什么样的原因。
人类选手之一的 Blitz 在比赛中说：“不管我走的哪一路，去了以后都感觉自己好像走错路了。从这个角度来说，和 AI 一起玩还挺难受的。但是如果我去哪的时候 AI 也一起来了，那我就感觉挺好的。仿佛是一边打游戏一边解谜一样。”

表演赛 Part 3 - 人人都可以挑战“OpenAI Five”

在赛前的开场演讲中，Greg Brockman 说到要通过“OpenAI Five”展示 AI 有高能力水平、高可拓展性，以及可以增强人类的能力。在前面 Part 1 的人机对战和 Part 2 的合作对战中，算是展现出了高能力水平以及一部分“可以增强人类的能力”，那么在 Part 3，我们终于看到了“高可拓展性”意味着什么：每个人都可以和 OpenAI 的 DOTA2 AI 对战，可以是作为对手，也可以作为自己的队友，下周开始，在 arena.openai.com 注册即可体验！

在表演赛结束后的讨论中，有人提到阻碍“OpenAI Five”这样的高水平竞技 AI 大规模普及的最大障碍之一显然是它需要的训练时间太长，Greg Brockman 也在推特上回应道解决这个问题会是他们的下一个目标。显然根据这次表演赛来说，除了这种深度学习技术方面的继续钻研，人类和 AI 如何高效地沟通、并肩合作也已经是一个浮出水面的问题。我们期待 OpenAI 未来也在这方面带来一些惊喜。