返回 登录
5

MIT团队训练AI玩任斗 已跻身顶级玩家之列

任斗,玩过没?对,就是任天堂全明星大乱斗。

麻省理工一研究生研究了一个AI,玩任斗,现在已经跻身世界顶级玩家之列了。

AI下象棋下围棋已经不是什么新鲜事儿了,德州现在也能玩得溜了,不玩棋牌类开始玩网游了,各位,危机感有没有。

图片描述

该AI小名Philip,水平怎么样?先看视频。Philip在游戏中是2号玩家Captain Falcon

【视频点击这里 需备梯子】

图片描述

Philip是麻省理工大学研究生 Vlad Firoiu带队研发的深度学习系统。2月21日,该团队在Arxiv上发布了一篇名为Beating the World’s Best at Super Smash Bros. with Deep Reinforcement Learning(《用深度增强学习打败世界最强任斗选手》)的论文。(论文地址

该团队并没有踩在DeepMind的肩膀上,几人白手起家,从头做起。尽管Philip与人类玩家的对抗还略显焦灼,但成果已算可喜可贺。

Philp采用 Q Learning及Actor-Critic算法,尽管这两种算法并非为视频类游戏量身定做,但只要训练数据足够,效果还是很喜人的。和AlphaGo一样,Philip也是在一局一局的对抗中逐渐获得数据。

图片描述

James Lauerman(花名Mafia,是世界排名第50的任斗玩家)在上述视频3:00时与Philip对局,他说:“3:00到3:40的时候,Philip的玩法简直弱智。计算机和人类玩法不同,它很难审视自己的正误,更别说看清自己当前正在采取何种策略。 但有时它又很聪明,它会边缘战术,不断地把我逼到右边的绳子上,挺有意思。”

其实这个游戏并不公平

Mafia甚至觉得,Philip的移动快到好像在原地发抖。事实上,团队给Philip开了一些外挂:

  1. Philip的反应时间为33ms,而人类的反应时间在200ms以上。
  2. 其实Philip不会投射攻击( projectile attacks),这也是为什么它玩Captain Falcon的原因,其余几乎所有角色都需要使用投射攻击。
  3. 人类玩家靠眼睛看屏幕做出反应,Philip直接读取游戏内存来确定角色的位置信息,连带着速度、状态也一并都读取了。

虽然开了外挂,人类玩家还是有战胜Philip的方法。一位很聪明的人类选手发现了Philip的一个bug,只要蹲伏在屏幕一角,Philip就会表现怪异、开始自闭、拒绝攻击、最后跳崖自杀。

玩归玩 Philip对AI研究的意义还是有的

  1. 通过迁移学习可以使Philip在不同角色中切换。也就是说按照 Fox McCloud(任斗角色之一)训练的AI也可以玩 Captain Falcon或者 Peach。
    Vlad说,迁移学习在此情景下能够成功应用的原因或许是角色之间存在共通性。角色的移动、当对手靠近时如何发动攻击,这些策略在不同的角色间是相通的。

  2. 训练Philip玩某一特定角色的难度,和人类对该角色难度的认知是相符的。这样训练数据反过来能够揭示并证实不同角色的难度—— Peach、Fox、Falco相对比较简单, Captain Falcon就比较难一些。这个SSBM(任斗社区)上的声音相符。
    Vlad表示,Philip的下一步优化将从调低反应速度开始。调低至人类的平均反应速度将会根除Philip的一些奇怪策略,这样能够将其拉至人类玩家的认知领域。


图片描述

图片描述

评论