大语言模型和游戏:综述和路线图

24年2月马耳他大学和纽约大学的论文“Large Language Models and Games: A Survey and Roadmap”。

在这里插入图片描述
近年来,对大语言模型(LLM)的研究呈爆炸式增长。LLM最初是自然语言处理中的一个领域,但在包括游戏在内的广泛应用程序和领域中显示出了非凡的潜力。本文调查LLM在游戏和游戏各种应用的当前技术状态,并确定了LLM可以在游戏中扮演的不同角色。重要的是,讨论了LLM在游戏中未来的未开发领域和有希望的方向,并针对游戏域适配LLM的潜力和局限性。

过去对游戏中人工智能类型的尝试集中在人工智能在游戏中可以扮演的三个角色上:玩游戏、设计游戏或为(人类)玩家建模[5]。LLM典型地表现为对话主体,这通常会引导公众赋予它们拟人化的品质,如推理和创造力。因此,当考虑LLM在游戏中或游戏开发过程中可以扮演的角色时,遵循这些趋势。LLM可以作为玩家(在模仿人类玩家目标的同时取代人类玩家)、非玩家角色(NPC,如敌人或对话者)、为人类玩家提供提示或处理琐碎任务的助手、控制游戏流程的游戏大师或隐藏在游戏规则集内(控制游戏的次要或主要机制)在游戏中运行。然而,LLM还可以在游戏运行时之外扮演其他角色,例如游戏的设计师(取代人类设计师)或人类设计师的助理。最后,LLM可以以不同的方式与玩家或观众互动,充当正在进行的游戏会话的评论员(在运行时期间)或以某种叙事形式复述过去的游戏事件的复述者(运行时之外)。其中一些角色(自主玩家、自主设计师)在更广泛的人工智能和游戏研究中很突出[5],LLM研究广泛针对他们,而其他一些角色在探索性研究中被实验。

玩家

LLM如何玩游戏?从根本上讲,语言模型玩家需要从他们典型的输出空间(即tokens序列)到游戏的输入空间进行一些转换。此外,游戏的各个方面及其当前状态必须以某种形式提供给LLM,以便其以任何合理的水平进行游戏。根据游戏本身,这些映射可能是直观的,也可能是复杂的。LLM玩家非常适合的三类游戏:(a)状态和动作可以紧凑地表示为抽象tokens序列的游戏,(b)主要输入和输出模态是自然语言的游戏,以及(c)外部程序可以通过API控制玩家动作的游戏。

第一类游戏主要包括回合制棋盘游戏(例如国际象棋),因为与例如第一人称射击游戏相比,棋盘位置和移动的离散集合更容易转换为紧凑表示(例如便携式游戏表示法)。通过对游戏数据库中的动作序列进行token化,可以将动作选择问题映射到训练LLM的标准自回归学习目标上——在给定之前动作的上下文的情况下预测下一个动作。国际象棋[16]、[17]、[18]、围棋[19]和奥赛罗(Othello)[20]都以这种方式被用作LLM玩家的试验台。然而,棋盘游戏并不是唯一一种可以表示为token序列的游戏:多面手GATO[21]智体可以通过将视觉输入处理为光栅顺序的像素值序列,在人类或接近人类的水平上玩各种雅达利(Atari)游戏。像素值与分隔符tokens和先前的动作交织在一起,使模型能够准确预测人类游戏轨迹数据集中的适当游戏动作。在捕捉空间和视觉动态[22]、[23]的Transformer模型中继续改进,可能会允许采用类似的方法来扩展到更复杂的游戏。然而,这种方法需要大量的游戏视频数据集,而这些数据集可能相对更难收集。此外,依赖人类游戏痕迹作为学习的基础,可能会使LLM玩家更难在推理和概括方面不跳跃的情况下达到超人的表现。

第二类游戏最明显地包括文本冒险游戏,如Zork(Infocom,1977),其中游戏状态以自然语言描述的形式呈现,并且游戏已经配备了处理自然语言响应的解析器。这意味着LLM可以通过一种仍然利用其对自然语言文本的大规模预训练的方式来查询游戏动作。LLM最早应用于这类文本游戏的是CALM[24],这是一个GPT-2系统,对从各种基于文本的冒险游戏中收集的人类游戏记录数据集进行了微调。该模型被训练为在给定先前状态和动作的上下文以及关于avatar的信息(例如,他们的库存)的情况下预测由人类玩家提供的自然语言串。为了真正玩游戏,训练的语言模型生成多个可教学的动作,并使用深度强化学习(RL)来优化从候选者中选择动作的策略。在其出版时,这个RL组件是必要的,因为LLM本身无法很好地推广到未见过的游戏或情况[24]。然而,最近对ChatGPT作为Zork玩家的调查表明,LLM的性能正在提高[25]。在一项初步实验中,Yao[24]表明,只要人类对话者仍在循环中帮助模型(例如,提醒它已经尝试过的动作),ChatGPT的性能就可以接近现有的文本游戏算法。然而,以这种方式将LLM直接应用于文本游戏显然还有很大的改进空间。此外,LLM玩完全新颖、小众或未见过的文本游戏能力(特别重要的是,考虑到这些系统在训练过程中可能会遇到流行文本游戏的演练或游戏痕迹)在很大程度上仍未被探索。

除了文本冒险游戏,LLM玩家在棋盘游戏中最著名的应用是CICERO[26],用于玩交易和诡计的游戏外交家Diplomacy(Avalon Hil

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值