DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

美国时间 8 月 5 日下午,OpenAI 主办的线下比赛(OpenAI 称为「OpenAI Five Benchmark」)一共进行了四局比赛。第一局 5 名现场观众组成的路人队伍被 7 分钟破中路二塔,9 分钟上路上高地,12 分钟破两路,人头比 26:4,可说是完全辗压。

之后三局比赛是重头戏,OpenAI Five 对阵 4 位前职业选手(Blitz、Cap、Fogged、Merlini)与一位现任职业选手(MoonMeander)组成的高手队伍。第一局依然惨败,21 分钟破第二路高地,人类选手打出 GG,人头比 39:8。第二局人类选手选择更强的控制、更积极的打法,却也只坚持 24 分钟,人头比 41:12。这样,三局两胜的比赛就告终了。

DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

 第二局人类高手比赛结束后,OpenAI CTO Greg Brockman 依序向 5 位职业选手(前)拥抱致意。

胜负已分,第三局就纯娱乐,现场观众帮 OpenAI Five 选了 5 个不怎幺厉害的英雄,最后果然让人类玩家获胜。

不过除了比赛比分,广大强化学习研究人员和人工智慧爱好者还有一个深深的疑问就是,这样的 AI 是如何训练出来的。

毋庸置疑,DOTA 游戏的複杂度比围棋高,回馈也相当稀疏,即使选用 OpenAI 开发非常成熟的大规模分散式 PPO 实现「Rapid」,也难以直觉信服「只要有足够训练时间,就能学到如此丰富的游戏行为」。比如首先 OpenAI Five 团队协作表现出人类一样的明确核心和辅助英雄,比如据 OpenAI 的研究人员介绍 OpenAI Five 也会选择打肉山,只说这两件事就都是人类玩家需经有意识的策略判断和执行才能做出,强化学习演算法现在就有这幺高层次的思维了?不太可能吧!

下面这些 5 日比赛瞬间也值得玩味:

DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

 比赛进行到 20 分钟,AI 的巫妖去看肉山。实际上整场比赛 AI 的英雄时不时就会去看看肉山。

DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

 Blitz 的影魔被 AI Gank,用暗影护符原地隐身,AI 的直升机和冰女两个有 AOE 的英雄在附近还有一个 AI 队友的情况下直接撤退了。现场解说评价「简直是人类对隐身物品的滥用」。

DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

 还是天辉方的 Blitz 的影魔,绕树林被 AI 方的眼看到。值得注意的是,这时候天辉方下路 2 塔都已经丢了,而这个夜魇方的眼就插在夜魇下路 1 塔外不远的地方。这个眼位可算是非常保守、非常奇怪。

DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

 AI 的火枪手很喜欢见面就给大,Blitz 的满血影魔露头就被大──这个策略其实非常有效,团战中人类方的冰女经常在团战开始前先被火枪大到半血,然后团战一开始就马上阵亡。

DOTA 5v5 AI 亮点不是如何「学」,而是如何「教」

 22 分钟 AI 的冰女补出点金手,不过接下来 3 分钟内都没有使用。

强化学习的範式决定了「帮助带来高回馈的行为」会更容易学到,而 DOTA 的複杂就在于,许多行为和最终游戏结果之间的关联似乎若即若离,大多数场合都有一锤定音效果的行为也许人类自己都说不清。即便相信 AlphaGo 能在反覆自我对局找到更好策略的人,也不一定相信 DOTA 如此複杂的环境下仅靠自我对局就可以学到定位、分路、补兵、先手、看肉山、插眼等系列行为。

结合 OpenAI 之前放出的一些资料和 OpenAI Five 开发团队比赛现场的访谈,找到了「计算集群上相当于 180 年游戏时间每天训练」之外的,帮助我们理解更具体的 AI 达成端倪。相比说这些是「强化学习研究的小技巧」,我们更觉得这是「人类教学的小技巧」;相比 OpenAI Five 训练中模型自己的探索行为,意义更重大的是人类成功把自己的知识和经验设法教会了 OpenAI Five。

现在知道这些 OpenAI 的「教学」方法之后,再回过头看看前面提到的 OpenAI Five 游戏表现,是否显得合理亲切多了呢?

可说 OpenAI Five 开发团队想了许多办法,鼓励 AI 用像人类的策略和作业玩 DOTA,但并不明确限制表现上限。人类玩家探索这个游戏这幺久之后,借助人类的经验快速避开低效的游戏空间当然是一个好主意。从这角度讲,OpenAI 现阶段的 OpenAI Five 彷彿是早期 AlphaGo,以人类过往游戏学习为基础,然后尝试提升和创新。

这套系统继续最佳化之后在 DOTA2 国际邀请赛(TI)面对现役职业选手能有怎样的表现,比现在明显进化全面的(也许是 Master 版)OpenAI Five、甚至去掉一切约束完全自己探索的 OpenAI Five Zero 版,未来是否还有更多可能呢?我们拭目以待。

相关推荐