【论文解读】大模型与游戏 - 综述和路线图
一、简要介绍
近年来,对大型语言模型(LLM)的研究出现了爆炸式的增长,同时伴随着公众对这一话题的参与。虽然 LLM 最初是自然语言处理中的一个领域,但它在包括游戏在内的广泛应用和领域中都显示出了非凡的潜力。本文调查了 LLM 在游戏中的各种应用程序的现状,并确定了 LLM 在游戏中可以扮演的不同角色。重要的是,作者讨论了 LLM 在游戏中未来使用的未开发领域和有希望的方向,并提出了 LLM 在游戏领域中的潜在和局限性。作为 LLM 和游戏交叉点的第一个全面调查和路线图,希望本文能够在这一令人兴奋的新领域为开创性的研究和创新提供基础。
二、背景
五年前,自回归语言建模在自然语言处理中是一个比较小众的话题。基于现有文本简单预测文本的训练模型被认为是主要的理论意义的,尽管它可能有作为写作支持系统的应用。2019 年 GPT-2 模型发布时发生了巨大变化。GPT-2 令人信服地证明了,在大型文本语料库上训练的转换器模型不仅可以产生令人惊讶的高质量和连贯的文本,而且还可以通过仔细提示模型来控制文本的生成。随后的发展,包括更大的模型、指令微调、来自人类反馈的强化学习,以及 2022 年底 ChatGPT 中这些特性的结合,增强了人们对大型语言模型(LLMs)的兴趣。突然之间,LLM 几乎可以做任何事情——只要问题和解决方案都可以被表述成文本。
LLM 目前是一个非常活跃的研究领域,研究人员既专注于提高 LLM 的能力,同时减少它们的计算和内存占用,也专注于理解和学习利用现有 LLM 的能力。从那些认为这些模型是“AGI 的火花”的人,到那些认为它们主要是从互联网的有损压缩中进行近似检索的人,关于 LLM 技术最终能力的知情意见差异很大。
游戏,包括棋盘游戏和电子游戏,既是人工智能研究的重要基准来源,也是人工智能技术的重要应用领域。几乎任何一款游戏都利用了某种人工智能技术,目前正处于一个探索阶段,开发者和研究人员试图弄清楚如何最好地利用 AI 的最新进展。有人也可能会说,电子游戏设计和电子游戏技术可能是未来人机交互发展的主要基础。
在本文中,开始调查 LLM 对游戏和游戏研究的影响,以及它们在近期到中期可能产生的影响。调查了来自学术界和使用 LLM 的(主要是独立的)游戏开发者的现有工作。本文没有着手捕捉 LLM 技术或 LLM 训练的算法。该领域技术进步的惊人速度很可能会使的编写报告在一年左右的时间内过时。相反,本文专注于在游戏中利用 LLM 的工作,并提出了 LLM 可以在更广泛的游戏生态系统中扮演的一系列角色。为在游戏中使用 LLM 的努力提出了有希望的未来方向,并讨论了在游戏中使用 LLM 研究的更光明的未来应该解决的局限性(技术和伦理)。
三、LLMS
在游戏中的角色 过去在游戏中对 AI 类型的尝试集中于 AI 在游戏中可以扮演的三个角色:玩一个游戏,设计一个游戏,或模拟(人类)玩家。LLM 通常以对话代理的形式呈现,这通常会导致公众赋予他们拟人化的品质——比如推理和创造力。因此,当考虑到 LLM 可以在游戏中或游戏开发过程中所扮演的角色时,就会遵循这些趋势。LLM 可以在游戏中操作作为一个玩家(取代人类玩家而模仿他们的目标),作为一个非玩家角色如敌人或对话者,作为一个人类玩家的助手提供提示或处理卑微的任务,作为一个游戏管理控制游戏的流动,或隐藏在游戏的规则集(控制一个小或主要的游戏机制)。然而,LLM 还可以在游戏运行时之外扮演其他角色,比如游戏的设计师(取代人类设计师)或作为人类设计师的助手。最后,LLM 可以以不同的方式与玩家或观众进行交互,充当正在进行的游戏会话(在运行时期间)的评论员,或者以某种叙述形式(在运行时之外)重新讲述过去的游戏事件。其中一些角色(自主玩家、自主设计师)在更广泛的人工智能和游戏研究中非常突出,而其他一些角色则在探索性研究中被实验。下面的部分介绍角色本身,调查为每个角色进行的研究,同时在第 4 节中确定未来研究的差距和机会。
3.1 玩家 Player
LLM 如何才能玩游戏?从根本上说,语言模型玩家需要从他们典型的输出空间(即标记序列)到游戏的输入空间进行一些转换。此外,游戏的某些方面及其当前状态必须以某种形式提供给 LLM,以便它能够在任何合理的水平上玩。根据游戏本身的不同,这些映射可能是直观的或复杂的。确定三个一般类的游戏 LLM 玩家很适合: (a)游戏状态和动作可以紧凑地表示为抽象的序列,(b)游戏的主要输入和输出模式是自然语言,(c)游戏的外部程序可以通过 API 控制玩家行动。
第一类游戏主要包括回合制的棋盘游戏(例如国际象棋),因为离散的棋盘位置和移动集比第一人称射击游戏更容易转换为紧凑的表示(例如便携式游戏符号)。通过标记从游戏数据库中获取的移动序列,行动选择的问题可以映射到训练 LLM 的标准自回归学习目标——给定之前的上下文预测下一步移动。国际象棋,Go 和 Othello 都以这种方式被用作 LLM 玩家的测试平台。然而,棋盘游戏并不是唯一一种可以表示为令牌序列的游戏:GATO 代理可以通过处理视觉输入作为栅格顺序的像素值序列,在人类或接近人类的水平上玩各种 Atari 游戏。像素值与分隔符令牌和之前的动作交织在一起,允许模型准确地预测人类游戏轨迹数据集中适当的游戏动作。Transformer 模型能够捕捉空间和视觉动态的持续改进,允许类似的方法扩展到更复杂的游戏。然而,这些方法需要大量的游戏视频数据集,这可能比较难以收集。此外,注意到,依赖人类游戏轨迹作为学习的基础可能会使 LLM 玩家更难在没有推理和泛化飞跃的情况下达到超人的表现。
第二类游戏最明显的是包括文本冒险游戏,如 Zork(Infocom,1977),其中游戏状态以自然语言描述的形式呈现,并且游戏已经配备了一个解析器来处理自然语言响应。这意味着 LLM 可以以一种仍然利用它们对自然语言文本的大规模预训练的方式来查询游戏动作。LLM 在这类文本游戏中的最早应用是 CALM ,这是一个 GPT-2 系统,基于从各种基于文本的冒险游戏中收集的人类游戏记录数据集。该模型被训练来预测由人类玩家提供的自然语言字符串,它给定了之前的状态和行动的上下文,以及关于虚拟角色的信息(例如他们的库存)。为了真正地玩游戏,经过训练的语言模型生成多个候选动作,并使用深度强化学习(RL)来优化从候选动作中选择动作的策略。在其发布时,这个 RL 组件是必要的,因为 LLM 本身不能很好地推广到没见过的游戏或情况。然而,最近一项关于 ChatGPT 作为 Zork 玩家的调查表明,LLM 的表现正在变好。在一个初步实验中,Yao 等人表明,ChatGPT 的性能可以接近现有的文本游戏算法,只要人类对话者保持在循环中帮助模型(例如提醒它已经尝试过的动作)。然而,在以这种方式将 LLM 直接应用于文本游戏中方面,显然还有很大的改进空间。此外,LLM 玩完全新奇或没见过的文本游戏的能力(考虑到在训练期间系统遭遇演练或流行文本游戏的可能性尤其重要)在很大程度上仍未被探索。
除了文本冒险游戏,LLM 玩家在棋盘游戏中最著名的应用是 CICERO ,用来玩交易和欺骗游戏 Diplomacy。Diplomacy 是自然语言教学的有利条件,因为玩家可以在私人信息中自由交谈,以安排计划、谈判或欺骗。CICERO 建立了一个预先训练过的 LLM,并编有大量的 Diplomacy 记录。在整个游戏过程中,模型中的样本被发送给其他玩家,并收集各种对话记录来调整潜在的动作。CICERO 被进一步训练,根据特定的游戏意图来调整其输出(从记录中推断出来,并在训练期间添加作为附加的上下文)。为了选择一个动作,CICERO 使用“策略推理模块”的方法,利用价值和策略的功能来预测其他玩家的行为。Diplomacy 是一款有趣的游戏,部分原因是动作空间分为自然语言话语和离散游戏板上的更标准的移动,CICERO 演示了如何将 LLM 作为一个更大的高级游戏系统的一部分。
最后,考虑存在鲁棒 API 的游戏。就其风格或机制而言,这不是一种游戏,而是关于它的受欢迎程度或易于实施的程度。API 是一个重要的属性,因为它允许 LLM 不是直接生成操作,而是生成作为策略的程序。LLM 的代码生成能力的改进使他们能够编写小程序,可以在给定的游戏状态下产生动作,而无需来自模型的进一步干预。例如,VOYAGER 利用 GPT-4 的代码生成能力,通过与流行的 Mineflayer API 交互来玩《我的世界》(Mojang 工作室,2011)。使用复杂的提示链,VOYAGER 生成代码块,这些代码块利用对 API 的调用来执行高级“技能”(例如“攻击最近的僵尸”),这些技能被自动转换为低级游戏输入(例如鼠标移动和按键)。GPT-4 还被用作高级目标生成器和计划器,这反过来通知代码生成。这种方法已经被证明是非常成功的,VOYAGER 是第一个完成各种游戏中《我的世界》挑战的自动化系统。结果令人印象深刻,并表明产生行动产生程序可能是一种比直接行动抽样更有效的利用潜在的 LLM 知识的方法。然而,VOYAGER 确实从一个强大的 API 的可用性和大量的互联网讨论中获得了巨大的好处。就像 ChatGPT 对 Zork 的分析一样,这种方法推广到不太流行或完全没见过的游戏的能力仍有待观察。
3.2 非玩家角色 Non-Player Characters
非玩家角色(NPC)是存在于虚拟游戏世界中,但其行为不受玩家直接控制的代理。NPC 的存在是为了丰富玩家的体验,通过增加世界的氛围来加深沉浸感。NPC 可以作为宠物、盟友、敌人、商人、任务提供者或旁观者。因此,他们甚至与人工智能控制的玩家有不同的代理,他们的目标是永远不会赢。为 NPC 设计人工智能变得有趣,而 LLM 可以在这项任务中提供独特的优势。他们“理解”游戏世界设置的能力使得 LLM 能够调整他们的反应来匹配这些设置。研究表明,LLM 能够通过不同的场景进行角色扮演,从而突出了它们提供一个更灵活、更恰当的工具来模拟人类行为的潜力。确定了 LLM 控制 NPC 的两种方式:(a)通过其对话,(b)通过其行为。行为与游戏中的动作选择有关;然而,论文注意到这种行为的启发式和目标与试图赢得游戏的人工智能玩家是不同的。
LLM 自然适合自然语言对话,作为 NPC 对话系统,它们可以根据玩家的输入生成动态的和上下文适当的响应。这使得与 NPC 的互动更为真实和吸引人,减少了重复的话语,并在游戏中提供了更具探索性的体验。LLM 可以让玩家作为前景 NPC、背景 NPC 或叙述者 NPC 参与到游戏世界的叙述中。在第 3.4 节中讨论叙述者 LLM 作为评论员,在这里讨论其他两种 NPC 类型。前景 NPC 是游戏总体叙事的一部分,或者是其子叙事之一。他们可能是敌人、盟友、信息提供者、任务提供者或物品提供者。他们的对话受到叙述的范围、他们在其中的角色和玩家行为的严重限制。前景 NPC 通过 LLM 生成文本的过程必须考虑游戏的整体背景和与玩家的互动,并跟踪在游戏过程中发生的事件。
背景 NPC 占据了大多数虚拟世界,但并不是玩家正在执行的任何特定任务的一部分。他们的目的是使环境更加可信,并独立于玩家行事。由于这种 NPC 的存在纯粹是装饰性的,他们的对话本质上是闲聊,他们的对话生成不那么受限制,可能只受说话者的身份和背景的限制。也就是说,他们的可信度取决于他们能否保持这样一种幻觉,即他们在这个世界上有自己的代理,并能与之互动。
研究表明,多个主体能够遵循游戏规则,参与到玩游戏中,不同的模型在特定角色中始终表现出自己的能力和弱点。这种在约束条件下进行交互的能力有助于在前景和背景的 NPC 中灌输可信的行为,在游戏环境的规则中建立他们的行为和对话。其他工作更多地关注 LLM 的对话和故事写作能力,比如在多个角色之间创造对话,每个角色都有自己独特的个性,同时遵循一致的情节。其中一个例子是使用 LLM 生成一个 south park 的集,即在一个著名的背景下生成多个角色。这种方法有局限性,主要是 LLM 表演类似于戏剧的即兴创作,而不是作为一个演员学习一个角色。通过这个不受约束的过程,LLM 容易产生不符合预期场景的幻觉。这种波动不仅可以为 LLM 提供对话历史,还可以提供环境的当前状态,比如其中的项目以及其他字符,以及相应的操作。这种方法已经成功地用于在基于文本的游戏中创建会话 NPC,也可以扩展到其他场景或涵盖 LLM 作为主动或交互式叙述者的使用。
3.3 玩家助手 Player Assistant
LLM 在游戏中的一个较少被探索的角色是玩家助手:一个旨在以某种方式丰富或引导玩家体验的互动代理。这可以是一系列教程风格的提示,一个根本不与游戏世界发生因果互动的角色,或者是一个能够以与玩家相似的水平与游戏世界进行互动的代理。现有的游戏以不同的方式使用玩家助手。例如,在《模拟人生》中,一个脱离实体的助手通过对话框提供了具体的针对游戏上下文的提示。《文明 6》使用不同的助手来提供类似的建议,根据其独特的启发式建议最佳构建选项;因此,它们可能会减轻玩家的一些决策难度。在管理游戏中,人工智能可能会自动完成一些琐碎的任务,比如在 Stellaris 为一个星球上的人口分配工作;这种帮助减少了玩家的认知负荷,但如果玩家愿意,他们也可以微观管理这个任务。
鉴于 LLM 具有潜在的表达能力和对话能力,它们作为玩家助手可能会很有吸引力。通过 LLM 驱动的或基于启发式的方法在当前游戏背景下寻找最佳的策略或行动,一个 LLM 驱动的玩家助手可以将建议的行动和解释构建为由无实体或实体主体传递的自然语言话语以表达相应的情绪,通过其身体姿态,手势和面部表情来表现出来。类似地,LLM 可以通过在较小任务描述中定制的小角色来帮助玩家在游戏中完成一些小任务。据所知,目前的研究并没有探索由 LLM 驱动的玩家助手的潜力。
3.4 Commentator/Reteller
评论员/复述者 作者认为 LLM 非常适合作为评论员或复述者。在这里,将这些角色确定为一个代理,它产生和叙述一系列的事件。这样的代理可以只考虑游戏内事件和游戏当前背景,作为游戏内实体,如 FIFA 的体育评论员,或者也可以考虑游戏外事件和欺诈文本,如玩家(他们的行为、策略、动机等)。复述员只讲述过去的事件——通常分为一个简洁的“块”,比如游戏会话(即基于游戏外环境)或任务。评论员可能正在叙述当前的、正在进行的尚未结束的事件,类似于主播同时讨论他们当前的行动(包括赛外背景)或在正在进行的体育比赛中的体育节目主持人,如 FIFA。 自动化的“let’s play”式的评论生成的愿景并不新鲜。它是在之前的工作中中提出的,并通过经典的机器学习方法实现,但成功程度有限。在一项研究中,一个带有文本、视觉和游戏属性输入的 LSTM 被训练成为赛车游戏中的评论脚本生成角色。这种方法的结果是重复和上下文无关的生成文本。 Renella 和 Eger 也探索了评论 LLM,他们认为 LLM 可以帮助游戏主播(例如在 Twitch 上),在流媒体多任务游戏中与观众互动。作者开发了一个自动评论《英雄联盟》游戏的管道。他们采取多阶段的方法,训练模型手工标注数据识别关键事件,然后促使 ChatGPT 生成 zero-shot 的关于这些事件的特定(已知)虚构的人物的实时评论,最后发送生成的文本通过 FakeYou API 用与这个角色相同的音色来发表评论。例如,一旦事件检测模型在特定帧中确定了敌人的双杀,ChatGPT 就会以里克和莫蒂的里克·桑切斯的风格评论:“ What the heck?! That enemy team just got a double kill! I can’t believe it!”添加一个额外的循环缓冲区检测事件——例如,延迟对双杀的评论,以防它升级为三杀,或者在快速的连串事件中优先排序——并提示 ChatGPT 生成随机填充,比如感谢(虚构的)新订阅用户。 尽管存在上述研究,但关于 LLM 作为游戏评论员的研究仍然相当有限。原则上,LLM 可以用来生成更简洁的复述或突出这些游戏事件。驱动当前的 LLM 生成故事,如果没有任何进一步的风格或内容,往往只能产生感觉一般的输出。模拟游戏中记录的过去事件最终可以为这些输出提供特异性和叙事一致性。
3.5 游戏管理员 Game Master
桌面角色扮演游戏(TTRPGs)中的游戏管理(GM)是指创造游戏情节、角色和叙述的人。数字游戏大多有规定的故事或关卡进程,其玩家的功能支持范围是有限的,而 TTRPG 玩家的行动只受到其想象力的限制。同样地,围绕着桌面游戏讲述的故事也可以有任何方向。由于人类 GM 主要通过自然语言传达游戏世界、故事、游戏状态和行动决议(尽管地图、微缩模型、分发道具也很常见),LLM 作为 GM 的潜力经常在研究圈和 TTRPG 讨论板中被提及。LLM 作为 GM 也开启了单人游戏的潜力,因为 TTRPG 需要至少一个玩家和人类 GM。 由 GPT-2 的微调版本管理的第一个著名的基于文本的冒险活动之一是 AI 地下城。《AI 地下城》是一个基于聊天的在线交互式讲故事应用程序,玩家可以单独通过语义输入来采取行动。LLM 基于玩家的输入,以人类 GM 的方式继续这个故事。这款游戏自创建以来就采用了最新的 LLM 模型,玩家可以在开始游戏过程之前进行选择。不同的游戏世界设置,玩家可以分享他们创造的故事。一些游戏还使用稳定的扩散 text-to-image 模型来生成伴随叙事的不同部分的视觉效果。 为了取代人类 GM,LLM 也被雇用为 GM 助手。CALYPSO 是一组运行在不和谐服务器上的工具,GM 可以查询它来生成随机遭遇,头脑风暴,或者与龙与地下城 TTRPG 设置中的虚构角色聊天。CALYPSO 强调,GPT-3 可以产生积极的影响,如产生合理的细节包括在最初的游戏手册(如生物的眼睛的形状),也可负面影响当前创建的细节,如完全错误的翅膀。此外,该模型对避免种族偏见的预处理偶尔会阻止它在游戏中产生幻想生物的种族细节。其他工作使用了较小的 GPT 模型,通过监控和转录 GM 和玩家之间的语言交流,并试图产生适当的反应,来即兴发挥游戏中的对话。这个例子被集成到“shoelace”中,它本身就是一个 GM 辅助工具,通过创建一个基于节点的游戏叙述和遭遇计划来帮助内容查找。LLM 的多功能性使得它们能够快速处理文本输入,这为它们集成到 GM 的众多现有工具和辅助工具中铺平了道路。
3.6 游戏机制 Game Mechanic
游戏也可以围绕一种依赖于 LLM 的特定机制进行构建,类似于基于人工智能的游戏设计模式。一个明显的机制是围绕着 LLM 驱动的会话 NPC 所促进的社交互动。在这种情况下,使用 LLM 来填充一个包含 25 个字符的虚拟村庄,使他们能够在沙箱环境中进行交流和参与社会行为。玩家可以使用基于文本的界面与这些代理进行交互。每个代理的环境状态和操作都以基于语言的格式存储,并进行总结,以便在提示每个代理的操作时保留每个代理的知识。这导致了新出现的可信的社会互动,比如代理自发地邀请其他代理参加其中一个正在组织的聚会。类似地,GoodAI 正在开发人工智能人类视频游戏,作为一个沙盒模拟,LLM 驱动的 NPC“他们的环境交互,形成关系和显示情感”。玩家可以通过自然语言聊天与代理进行互动,触发反应,并潜在地破坏 NPC 之间的关系(见图 1)。
自然语言交互形成了一个自然的游戏构建机制池。游戏 1001 夜,如图 2 所示,通过让 LLM 根据人类提示共同创造了一个故事,玩家的目标是尝试和引导故事包括特定的关键词,以便主角把这些关键词变成有形物品,从而帮助她逃离。类似地,Gandalf 挑战玩家欺骗 LLM 泄露密码。通过调整提示性的规范,游戏增加了任务的难度,例如迫使 LLM 重新检查其生成的响应,以确保它不包括密码。
LLM 的另一个优势是语言合成,Infinite Craft 利用了它。Infinite Craft 是一款“炼金术”游戏,玩家可以结合各种元素来产生新的元素(见图 3)。在 Infinite Craft 中,玩家从一系列核心元素(水、火、风和土)开始。但是,虽然前者有一组由设计师手动定义的交互,但 Infinite Craft 提示 LLaMA 2 想象这些元素组合的产物。从游戏玩法来看,对于每个不同的组合,LLaMA 只被提示生成一次结果,产品存储在数据库中以备将来参考。因此,语言模型中的任何词汇都可能从这些元素的组合中“出现”,包括所有 50 个、“Dreams”和虚构的“ Super Stonedosaurus Tacosaurus Rex”。有时,模型可以选择返回一个组合后的元素,或者拒绝组合(特别是非常冗长或复杂的)元素。
3.7 自动化设计师 Automated Designer
人工智能在游戏中的一个关键角色是通过算法生成游戏内容,如关卡和视觉效果,甚至是整个游戏。与游戏 GM 通过自然语言创建游戏不同,玩家程序内容生成(PCG)的目的是创建内容用于数字游戏,因此需要满足某些约束如可玩性和审美质量。 任何在可用内容语料库上训练的 PCG 方法都适合通过机器学习(PCGML)范式的程序内容生成。严格地说,2018 年最初的 PCGML 框架没有考虑 LLM;相反,它依赖于机器学习方法,如自动编码器和 LSTM。然而,在考虑 PCG 的 LLM 时,PCGML 仍然面临着重要的挑战:值得注意的是,它依赖于来自人类编写级别的高质量、机器可读的数据集。一些数据集存在于街机游戏级别,对于大多数游戏,其内容仍然不可用,并受到知识产权(IP)法律的保护。 之前在 PCG 中的工作已经证明,tile-based 游戏关卡可以从一组适度的例子中通过基于序列的预测模型(例如 lstm)可靠地生成,通过将这些关卡视为栅格顺序的 tile 类型的线性序列。最近,现代 LLM 以类似的方式获得了普遍的成功。GPT-2 模型在 Sokoban 级别的大数据集上进行了微调,并在测试时从模型中提取样本,以产生新的谜题(见图 4)。有趣的是,他们的结果表明,当微调数据集的大小受到限制时,GPT-2 模型存在困难,但 GPT-3 能够更好地适应有限的训练集。
一种类似的方法,MarioGPT,在一个相对较小的超级马里奥兄弟的数据集上训练一个 GPT-2 模型。MarioGPT 通过使用初始数据集作为一个进化算法的起点,克服了数据稀疏性的问题。选择现有的关卡,然后通过从 GPT 模型中采样来对关卡的部分进行突变,然后用类似训练的 BERT 模型校正生成部分和现有关卡的其余部分之间的边界。这种方法产生了大量且多样化的可玩关卡。 上述两种基于 GPT 的关卡生成方法也显示了结合自然语言指令来生成条件关卡生成器的前景,或者是通过在训练数据集中添加具有期望关卡特征的游戏级别的前缀或通过嵌入用户指令,并允许模型在生成过程中处理嵌入。似乎更复杂的技术,如使用人类反馈的强化学习,可以产生更能够容纳用户指导的关卡生成器。
3.8 设计助手 Design Assistant
一个用于设计辅助的人工智能可以为创作过程提供几个好处。根据工具的类型、人工智能的类型和创造性过程的类型,人工智能可以最小化开发时间和成本,减少人力资源,支持设计团队成员之间的协作或激发用户的创造力。到目前为止,在游戏中,大多数基于动态的设计助手工具都专注于自动完成人类正在进行的设计,或者为设计师提供许多可能的建议来考虑。基于人工智能联合创建者对该过程的控制水平,确定了三个级别的帮助:
概念辅助,即 AI 提供不适合游戏使用的高级指导,要求设计师以符合他们自己的愿景和游戏约束的方式来调整和管理 AI 输出。
程序协助,即人工智能是创意过程的一部分,通过与用户的互动,可以产生越来越多的目标产品的最终版本。在这里,人工智能需要理解游戏内容的背景,以提供有意义的帮助。然而,人工智能并不需要制作一个最终的、可玩的产品,而是可以简单地提供与设计师讨论的下一个创造性步骤。此外,设计师最终负责策划和调整生成的内容,以及决定何时完成共同创作的过程 产品辅助,即人工智能必须根据用户的需求创建最终的产品。这是最接近 PCG 的水平,但不同之处在于设计者仍然保持控制,可以改进他们的规范或拒绝创建的产品。然而,正如预期的那样,人工智能在这个场景中在一个更有限的空间中运行,因为它必须考虑所有其他游戏机制和设计师目标,这些目标是通过学习的设计师模型以某种方式编码或假定的。
有人可以说,现有的与 LLM、基础模型和大型多模态模型的接口充当了设计助手。设计者提供他们的规格,并接收一个(在 LLM 中)或多个(在 AI 图像生成器中)的建议,他们可以进一步改进。许多创意人员使用这样的交互来进行头脑风暴和概念开发,包括游戏开发者。然而,LLM 作为设计助手的适用性有些有限,只恢复到概念上的辅助。 因此,概念辅助对于 LLM 来说是最简单的,也是在游戏中探索的第一个案例。设计辅助被设想在一个工具中,该工具将用户提供的游戏描述与现有的类似游戏的知识结合起来,以向设计师建议可能的游戏功能。建议是通用的,字很少的指引,如 “learn new combat”。这将需要广泛的设计努力和创造力,才能转化为一个可实现和连贯的游戏设计。 由于产品辅助也接近于传统的 PCG 管道,因此它为游戏提供了可以理解的探索。GPT-3 从描述关卡特征(例如宽度和高度)的提示中生成关卡,而人类则管理和编辑结果以确保可玩性。然后将这些关卡用于进一步的微调,潜在地使生成过程自动化。 如上所述,到目前为止,研究主要集中在 LLM 的概念辅助(对人类设计师承担重大责任)或作为产品辅助(利用人类设计师作为管理者)。
四、关于 LLMS 在游戏中的未来应用的路线图
前一节试图将 LLM 和游戏中的当前研究分组为一种类型学,重点关注 LLM 需要扮演的角色。作为这个练习的一部分,确定了一些已经被大量研究过的角色。不出所料,玩家和自动设计师的角色受到了关注:这与更广泛的人工智能和游戏研究的总体趋势相匹配。遵循游戏 AI 或生成内容的总体趋势,基于 LLM 的方法很可能通过社区活动、基准和竞争蓬勃发展,已经朝着这个方向迈出了第一步。基于第 3 节中列出的角色,在下面确定了文献中发现的一些差距,并列出了以新的方式利用 LLM 的力量的可能的研究方向。
虽然在过去的十年中,学术界对游戏设计辅助的兴趣正在蓬勃发展,但发现 LLM 的潜力迄今尚未得到充分利用。LLM 设计助手要么在创造性解释和实际开发方面对人类设计师的要求太多,要么要求太少,将他们降为内容管理员。一个有希望的未探索的方向在于更多的程序辅助,其中 LLM 不仅产生输出,而且对人类设计者讲述原因。LLM 似乎特别适合这个任务,因为上下文被保留,设计者可以迭代地细化 LLM 生成的过去的产品。然而,在长期设计过程中,可能会出现 LLM 有限的内存问题。预计这类应用程序将在幻觉、可解释性、捕获或建模设计师意图等方面提出新的挑战。
虽然认为玩家助手是 LLM 可以扮演的重要角色,但还没有发现任何针对这方面的任何方面的工作。LLM 的会话能力使它们非常适合编写教程或提供提示,特别是在简短的代码片段中,例如由会话代理提供的。然而,需要注意的是,LLM 经常会产生幻觉或过度适合它们所训练的语料库,并且可能会受到挑战,例如,在给定游戏手册的情况下总结或查找特定的规则。当使用 LLM 作为人类游戏 GM 助手时,也发现了类似的限制,当被问到关于场景的问题时,LLM 无法在预写的冒险游戏中找到可以突出显示的元素。可以使用其他技术(如数据库搜索查询)代替,LLM 只承担将发现的信息转换为自然语言的任务。然而,除了仅仅提供暗示之外,LLM 还可以扮演一个更实际的玩家助手,接管更琐碎的任务(比如在策略游戏中管理一个城市的细节)。这对于游戏 GM 的帮助也很强大,因为 LLM 可以跟踪所访问过的位置和 NPC 所遇到的位置,或者查找规则。在这两种情况下,解决幻觉和一致性的问题将需要解决。
另一个似乎很适合受到有限关注的 LLM 的角色是评论员或复述元年。到目前为止,研究工作主要集中在自动化主播或电子竞技的评论上。虽然这个方向在很大程度上仍然未知的,但还有更多的方向可以利用 LLM 进行流媒体帮助,而不是自动化(和替换)。LLM 不能叙述游戏中发生的事件(或视频流),而是可以总结观众的互动和参与度水平——从而充当不是游戏的评论员,而是观看观众的评论员。这可以让人类主播更好地跟踪聊天中讨论的话题,并根据需要参与,而不必阅读每一条评论。虽然这已经被确定为人工智能的研究方向,但尚未实施。在主播协助的作用下,LLM 评论的可解释性问题将变得相关(例如,向一名观众的名字讲话)。
最后,值得注意的是,人工智能在游戏研究中完全缺少游戏研究中的一个支柱:建模玩家。乍一看,这并不特别令人惊讶:虽然玩家建模通常依赖于有监督的机器学习算法,但目前还不清楚如何通过文本输入或输出来实现这一点。原则上,LLM 可以预测情感状态的转变,比如“游戏现在更吸引人”,从而调整游戏环境,为玩家创造一种更吸引人的体验。学习这样的转换建立在经验驱动的程序内容生成范式上,但使用 LLM 作为玩家体验模型。因此,设想了的精细功能,以便它们能够基于游戏中的观察和体验演示来表示和推断玩家体验。然而,正如第 5 节中强调的,当前的 LLM 很难捕捉用户的意图——更不用说更多不明确的概念,如玩家的情感或参与度。当前关于游戏中影响的数据集被格式化为连续变量或分类变量,通常随着时间而波动,如果不处理就格式化为文本将具有挑战性。虽然使用语言作为玩家模型的输入或输出可能需要一些创新的预处理或更先进的 LLM 技术,但底层的 transformer 架构和基于注意力的算法已经显示出了希望。希望能有更多关于由 transformer 驱动的玩家建模的研究,比如利用行为 transformer 来模仿按游戏风格分组的人类游戏轨迹。
总之,相信在第三节中确定的游戏中所能扮演的每一个角色都可以从额外的关注中获益。自然语言功能(特别是用于文本生成)使 LLM 成为理想的会话助手(适用于玩家、设计师、游戏 GM 或主播)。LLM 从文本语料库中消费和推理的能力也为自动设计打开了新的可能性,超越了 tile-based 的关卡生成(需要精心制作的语料库),并进一步转向开放式内容,如游戏叙事,甚至是游戏设计文档。LLM 在这方面的潜力已经被该领域的许多研究者提出,但关于这些想法的实际实施和解决它们可能提出的知识产权问题的研究仍在进行中。
五、LLMS
在游戏中的局限性 大型语言模型在电子游戏中具有令人兴奋的潜力,但它们也有其固有的局限性。主要是,LLM 患有幻觉,这意味着它们会输出可信但错误的陈述,仅仅因为它们是一个可能的单词序列。幻觉是不可避免的,因为世界是如何被描述给机器;LLM 缺乏基础,所以它们生成的文本脱离了现实的约束。然而,LLM 总是在回答中自信地“行动”,即使完全错了。除了幻觉,LLM 还可能事实错误,输出的反应是错误的,即 LLM 可以获得的信息被证明是错误的。在电子游戏的背景下,这些限制对 LLM 的某些应用的影响更大,例如 NPC 可能会产生游戏中不存在的幻觉任务,或者玩家助手可能会基于错误的假设向用户提供建议。
在电子游戏中使用 LLM 的另一个限制是,LLM 有时很难捕捉到用户的意图。这一点在讽刺的表达中尤其明显。捕获用户意图的能力对于直接与玩家对话的 LLM 应用程序来说非常重要。一个能正确理解用户意图的 LLM 也能正确理解对话的上下文,而这对于当前的 LLM 来说并不总是如此。许多 LLM 在正确理解用户请求、时都犯了错误,并且多次向 LLM 澄清会给用户带来令人沮丧的体验。这一限制与 LLM 与用户直接对话的情况最为相关,例如作为设计助手、玩家助手或游戏 GM。根据 LLM 输出对用户体验的控制程度,无法捕获用户意图可能是令人沮丧的来源。
在更大的规模上,LLM 会失去上下文,难以保持连续性。这是因为 LLM 的“记忆”受到其上下文大小的限制,这限制了其输入和输出的范围,以及由于注意机制而导致的响应时间。对话的时间越长,LLM 回忆起早期事件的可能性就越小。在电子游戏中,可以单独总结游戏事件,并将它们作为 LLM 输入的一部分进行处理。然而,随着游戏经过几个游戏阶段的进展,这个总结可能仍然太长,或者越来越重要的细节将被省略,从而导致性能下降。这对于需要长期参与的角色尤其相关,比如 LLM 驱动的复述者或游戏 GM。在 infinite craft 中,这由外部数据库处理,该数据库存储和查找过去的组合规则,确保未来使用相同机制时的一致性。LLM 在理论上可以直接解决这个问题。检索-增强生成(RAG)系统可以解决这个限制,从一个包含向量表示或其他相关文本或数据的潜在表示的数据库中提取。当文本生成器处理一个序列时,RAG 系统将从这个外部数据源检索类似的条目。这将为 LLM 提供一个精简的游戏事件和行动档案,以产生一致的叙述进程。
另一个挑战是,目前的 LLM 被训练为高度符合用户的要求。对于 LLM 助手来说,这不是一个值得关注的原因,但在游戏 GM 的角色中,这可能会产生问题。人类游戏 GM 经常会抑制奇特的玩家请求,这些请求可能会与游戏叙述完全不同,或者会导致所需的游戏事件序列的不可恢复的中断。LLM 游戏 GM 会试图适应即使是最奇怪的请求,而很少考虑对任何预先确定的游戏事件的结果影响。 最后,LLM 在视频游戏应用程序中的实现和部署仍然非常有限。电子游戏是一个响应能力对玩家至关重要的领域,因此 LLM 也应该能够快速提供他们的响应。不幸的是,虽然正在对更高效、更快的架构进行研究,但 LLM 的实时应用仍然不可行。这在其他领域尤其明显,比如设计应用程序,其中“实时”响应会在大约 30 秒到超过 1 分钟内生成。
六、游戏中与 LLMS 的伦理问题
近年来,随着人工智能方法应用于电子游戏的改进,许多关于其伦理和现实世界影响的问题被提出到。使用 LLM 提出了关于可持续性、版权、可解释性和偏见的伦理问题。当然,这些问题在电子游戏领域都有严重的影响。
LLM 对训练数据和训练时间的依赖引起了人们对其碳足迹的关注。除了训练成本之外,由于不断查询,对模型寿命的推断有更大的环境影响。诸如可再生能源和地方能源、更好的模型架构以及更有意义的训练数据等因素都可以缓解这种情况。在数字游戏的 LLM 环境中,可持续性仍然至关重要,考虑到游戏过程中频繁查询的碳足迹。如果 LLM 打算在通常由不可再生资源驱动的消费者级硬件上进行本地运行,那么这一点尤其重要。
当涉及到版权时,问题适用于输入数据、输出数据和模型本身。在版权保护下接受数据训练的 LLM 是一种不幸的常见做法,理应引起公众的愤怒。这些模型本身有不同的版权许可,这也可能导致它们生成的工件属于公共领域。对于游戏产业来说,知识产权和版权的问题是极其重要的。这既担心公司受版权保护的内容以某种方式被用作竞争对手的训练,也担心使用可以产生公司不能获得版权的材料的 LLM。这里需要注意的是,至少当涉及到后一个问题时,LLM 所扮演的角色是非常恰当的。如果 LLM 或 LMM 自动生成内容,在美国过去的法律共识表明,该材料不受版权保护的。如果 LLM 或 LMM 作为设计师的“辅助工具”,那么将这些概念转化为游戏设计和游戏艺术所需的广泛和有效的人力努力可能使最终产品获得版权。然而,版权法庭对这方面的有限裁决,以及在自己的文本中包含的“可能”警告,可以理解会让游戏公司在未经测试的领域犹豫不决,比如小型独立制作。然而,对于研究人员来说,大公司侵犯版权和剥削的伦理问题,以及公众对上述的强烈抗议,使 LLM 的研究不那么容易接受。
在应用程序中,了解如何达到最终结果或产品是极其重要的,特别是当产品像设计助手那样迭代改进时。这是一个可解释性的问题,而 LLM 在其生成过程中天生是不透明的。在之前的一项工作中,作者强调了不同的方法来提高语言模型的可解释性,如基于概念的解释或显著性映射。特别是对于 LLM,通过思维链(CoT)推理应用的自我解释已经受到了研究界的关注。虽然这种方法为生成的输出添加了一层已解释的推理,但在文献中有多个例子证明了这种推理可能只是一种推理能力的错觉。在电子游戏中,可解释性在不同角色之间是至关重要的,它确保了游戏玩法的一致性和用户参与度。
最后,当 LLM 在一个大型语料库上进行训练时,偏见就出现了,这些语料库通常是从互联网上刮来的。这允许模型捕获当前的现实映射,这对会话或问题回答模型是有利的,尽管它需要从不同类型的偏见中管理这些数据。有些偏见,如社会刻板印象,可以有针对性并加以缓解;其他的,如排他性规范,构成更大的挑战。在电子游戏中,当与 LLM 互动时,发现了两个主要的问题:有毒行为、刻板印象或不正确的观念。有毒行为是一种有害的属性,语言模型可以从其训练语料库中学习到,而训练语料库通常包含来自基于社区的论坛或社交平台的文本。在电子游戏中对抗有毒语言的工具不断发展,有些甚至在传递给用户之前就阻止聊天信息。因此,理论上可以开发出类似的应用程序来针对语言模型的有毒输出。然而,与人类玩家不同的是,当 LLM 扮演 NPC 的角色时,它应该符合游戏主题,避免任何有毒的语言或种族歧视。这就要求开发人员通过数据清理来确保模型的正确行为,如果模型是从头开始进行训练的,或者如果根据他们的需要进行微调,则提供定制的数据。解决刻板印象和不正确的观念等偏见是复杂的,因为它们不一定与单个词或表达有关,而是作为一个理想的集合,往好了说是错误的,往坏了说是有害的。NPC LLM 可能会表现出现实世界的刻板印象,对玩家体验产生负面影响,尽管认为来自玩家评论员或游戏大师的偏见的影响更加强烈和令人不安。
七、结论
正如本文所讨论的,LLM 可以扮演许多不同的角色,从而提高玩家在电子游戏中的体验,或者提高游戏设计师实现他们的想法的能力。然而,也强调了许多针对 LLM 应用的不同挑战,以及 LLM 的本质及其周围的生态系统所面临的内在挑战。尽管 LLM 带来了技术、伦理和法律上的挑战,但忽视这项研究可能对游戏 AI 研究和游戏行业产生的影响是不现实的。希望 LLM 研究人员和公司看到许多新的技术创新。考虑到这一点,提出了 LLM 在未来应用于游戏的发展方向。
评论