算法帮助AI在传奇的雅达利游戏中获胜

2015年，谷歌的DeepMind AI承担了学习玩雅达利视频游戏的任务。也很成功，和视频弹球里的人类玩家一样优秀。但由于游戏的复杂性，除了简单的街机游戏外，它开始挣扎，众所周知，它甚至没能在80年代的传奇冒险游戏《蒙特祖玛的复仇》中收集到第一把钥匙。

然而，一种新的方法导致了一种AI算法，它从错误中学习并确定中间步骤的速度提高了10倍，并在谷歌失败并成功独立播放蒙特祖玛的《复仇》后获得了成功。

这项工作是由澳大利亚墨尔本的RMIT大学的Fabio Zambetta和他的团队完成的。赞贝塔在2月1日于夏威夷举行的第33届AAAI人工智能大会上介绍了这一发现。

设计能够克服规划问题的人工智能，比如奖励不明显，是推动这一领域最重要的挑战之一。

人工智能之所以在冒险游戏中苦苦挣扎，是因为在发现一些奖励之前，它认为没有动力去选择一种动作模式而不是其他任何一种，比如爬梯子或者跳坑，以达到更大目标的子目标水平。

他们迷茫，无法确定前进的方向，只是开始随意行动。

对于一些游戏，如弹球，奖品就在附近，算法会获得所需的外部输入。

但是，在冒险游戏中，奖励更加分散，鸡和蛋的情况发展。程序发现自己在获得一些奖励之前无法提高游戏性，但在提高游戏性之前不会找到任何奖励。

为了解决这个问题，赞贝塔从其他电脑游戏中汲取灵感，比如《超级马里奥》和《帕克曼》，并引入了颗粒奖励，提供小的中间奖励，鼓励其探索并完成子目标。

他说：“真正智能的AI需要能够学会在模糊的环境中自主完成任务。

“我们已经证明，正确的算法可以使用更智能的方法来改进结果，而不是在一台非常强大的计算机上纯粹粗暴地端到端解决问题。”

这种方法意味着算法会更自然地行动，完成子目标的速度比其他AI方法快10倍。

赞贝塔声称：“在玩蒙特祖玛的《复仇》时，我们的算法不仅在自动识别相关任务方面比谷歌DeepMind快10倍，而且它们还表现出相对类似人类的行为。

“比如在进入游戏的第二屏之前，需要确定一些子任务，比如爬梯子、跳过一个敌人，最后拿起钥匙，大致按照这个顺序。

“这最终会在很长一段时间后随机发生，但在我们的测试中，一些意图发生得如此自然。

“这让我们成为第一个完全独立的面向目标的代理，真正在这些游戏中与最先进的代理竞争。”

虽然听起来微不足道，但这项工作在游戏之外可能非常重要。根据赞贝塔的说法，刺激子目标可能有利于控制自动驾驶车辆的算法以及现实世界中需要机器人助手来实现目标的其他情况。