您现在的位置是: 首页 > 新闻频道 > 互联网 >

Facebook的角色扮演游戏通过阅读描述来教AI完成任务

  • 2020-05-11 16:22:41

Facebook研究人员再次展示了电子游戏在推进人工智能和机器学习研究方面的潜力,在一篇被2020年国际学习代表会议(ICLR)接受的论文中提出了一项类似游戏的语言挑战——“阅读对抗怪物”(RTFM)。 RTFM任务一个人工智能代理通过阅读它们的描述来学习它的动态,从而可以用它不熟悉的动态推广到新的世界。

Facebook的工作可以成为AI模型的基石,能够捕捉复杂任务中目标、文档和观察之间的相互作用。 如果RTFM代理在需要推理的目标上表现良好,它可能表明语言理解是学习策略的一种很有前途的方法-即启发式,它建议一组针对一个国家的行动。

在RTFM中,来自roguelikes(一个使用大量程序生成元素的角色扮演游戏的子代),如Net Hack、Diablo和最黑暗的地下城,动态包括:

在运行开始时,RTFM产生了大量的动态,以及对这些动态的描述(例如,“受祝福的物品对毒怪物有效”)和目标(“击败森林秩序”)。 组、怪物、修饰符和元素是随机的,怪物的团队分配和修饰符对各种元素的有效性也是随机的。 来自该团队的一个元素、团队和怪物被指定为“目标”怪物,而来自不同团队的元素、团队和怪物被指定为“分心者”怪物,以及击败分心者怪物的元素。 目标和分心怪物的位置-两者都以固定的速度攻击代理-也是随机的,所以代理不能记住它们的模式。

人写模板表示哪个怪物属于哪个团队,哪些修饰符对哪个元素有效,代理应该击败哪个团队。 研究人员指出,在RTFM中有200万种可能的游戏-不考虑自然语言模板(否则为2亿)-并且随着模板的随机排序,唯一文档的数量超过150亿。

除了部分目标指令外,还向代理提供了描述环境动态和观察的文本文档。 为了实现这一目标,他们必须在文件(其中也列出了他们的清单)以及意见中相互参照相关信息。

具体来说,RTFM代理必须:

研究人员利用强化学习,一种通过奖励激励代理人实现目标的技术,来训练他们称为txt2π的RTFM模型。 通过获得胜利的“1”和损失的“-1”的奖励,txt2π学会了建立描述,捕捉与目标的交互,描述动态的文档和观察。

研究小组进行了实验,他们对txt2π进行了至少5000万帧的训练。 虽然最终模型的表现落后于人类玩家,他们一直在解决RTFM,txt2π击败了两个基线,并通过学习课程获得了良好的表现。 在具有新动态和世界配置的大环境(10乘10块)的训练阶段,该模型有61%的获胜率(正负18%),在评估期间有43%的获胜率(正负13%)。

“[研究结果表明]在复杂的RTFM问题的基础政策学习方面有很大的改进空间,”共同作者承认,他们希望在未来的工作中探索如何利用外部文件中的支持证据来训练代理人对计划进行推理。

Top