绝悟 AI 再次亮相 GDC, 展示人机协作与 AI 内容生成能力

2022 年 3 月 26 日
本文字数：3135 字
阅读完需：约 10 分钟

全球游戏行业年度盛会“2022 游戏开发者大会”(英文:Game Developers Conference,简称 GDC)于近日举办。腾讯 AI Lab 在大会上展示了 AI+游戏两项进展,包括绝悟 AI 应用于玩家教学,及 AI 算法自动生成关卡,展示了 AI 技术丰富玩家体验、降低制作成本的能力。这两项进展也代表了腾讯 AI Lab 向 AI 深入游戏产业全链路布局更近一步。

AI 技术在游戏全链路的研究与应用包含两部分,在横向上覆盖游戏制作、运营及周边生态全生命周期,提升游戏品质,丰富玩家体验;在纵向上 AI 正拓展更多元的游戏品类。在去年 GDC 大会上,腾讯 AI Lab 就展示了 AI 在不同类型游戏上的应用成果,包括提高游戏开发效率、打造新玩法、辅助游戏平衡性测试等案例经验。

与此同时,AI 在游戏场景中不断提升通用智能,也将有助于解决现实世界真实问题,并推进迈向虚实融合未来。

(腾讯 AI Lab:AI 技术在游戏产业全链路中的研究与应用能力)

绝悟 AI 玩家教学,提升人机协作能力

“绝悟”是腾讯 Al Lab 研发的决策智能 Al,已在 MOBA、FPS、RTS、3D 开放世界等多类复杂策略游戏中取得了国际顶尖的研究成果。基于不断提升的复杂长期决策和团队协作能力,绝悟也已应用于多款游戏,赋能游戏制作与运营环节。

和王者荣耀共同研发的王者绝悟已表现出媲美人类顶尖职业选手的决策能力。如王者绝悟能把一身本领传授玩家,将能帮助玩家快速提升竞技水平。这需要 AI 具备形式丰富的信息交流与协作能力。但此前竞技型的王者绝悟是基于智能体间的建模训练而成,这种建模方式导致 AI 难以理解人类玩家意图,因此无法实现对玩家的交流指导。

人机协作技术解决了这一问题,成功让王者绝悟实现 AI 教学。在游戏内“绝悟试炼”玩法中,王者绝悟身兼队友及老师,与玩家在真实对战环境中交流协作,并在过程中向玩家传授职业级的策略与操作技术,帮助玩家迅速熟悉英雄操作与游戏玩法。数据显示,在引入王者绝悟 AI 教学后,玩家单局游戏主动沟通的次数提高了 56%,提高了 PVE 玩法的可玩性。

具体到技术方案,人机协作要应对 AI 与玩家之间理解、沟通、协作三个层面的挑战:

王者绝悟通过自对弈探索策略,与玩家“师出不同门”,两者在策略和行为上存在差异,如何让 AI 理解玩家意图?

玩家与玩家之间通过语音文字等交流,但 AI 描述信息的方式与人类截然不同,如何让双方有效沟通?

当玩家和 AI 的策略不同时,如何合理地进行协作?

为了解决这些问题,我们使用了之前提出的 MGG 算法(Learning Diverse Policies in MOBA Games via Macro-Goals,Neurips 2021 收录)来搭建仿真的人机协作环境。MGG 使用分层建模的思想,将任务分解为宏观策略建模和微观操作建模。其中,宏观策略模型负责战略层面的长期规划,微观操作模型则在宏观策略下的指导下进行实时决策。然后,我们通过构建基于专家知识的宏观策略模型,来引导 AI 学习玩家的策略,并让 AI 在自对弈训练中与不同策略的队友进行组队,从而能更好地理解玩家的意图。

实现人机“同频”之后,接下来是沟通和协作的问题。首先我们用基于专家策略的 AI 模型模拟玩家,再使用各种不同策略的 AI 模型分别模拟对手和队友,从而搭建起一个高度仿真的人机协作的环境。然后,我们在宏观策略层面建模了信息交流,通过构建通用的通信协议“元指令”来描述战略意图,实现 AI 与玩家的交流。

同时,我们还训练了一个指令选择器,利用长期奖励和自对弈来评估“元指令”的价值,从而完成合理的协作。王者绝悟在人机教学中主要有两种协作模式,一种是被动式协作,即玩家发送指令给 AI 队友,AI 队友使用指令选择器评估价值,执行其中有价值的指令并向玩家反馈。另一种是主动式协作,AI 队友用职业级的宏观策略作为元指令发送给玩家,指导玩家去哪里、做什么。

来看看人机协作的实战效果。在玩家发出各种指令后,AI 会根据血量、距离等实际情况,评估指令的合理性,选择执行或拒绝。同时,AI 还能执行一系列的多指令任务(如集合 - 抢夺资源 - 撤退),完成更复杂的协作。

随着人工智能技术的发展,人机协作将成为未来重要模式,“理解-沟通-协作”是实现这一目标的通用问题。王者绝悟在王者荣耀人机教学场景下的应用探索,不仅适用于大多数 MOBA 游戏,为玩家带来价值,也是对未来更多现实场景中人机协作方向的有利探索。

AI 自动生成游戏关卡,推进虚实融合未来

游戏内容通常包括角色、地图、建筑、关卡、世界等,而游戏内容的制作成本很高,一般来说,一款大型游戏需要数百人花费几年时间开发。程序化内容生成(Procedural Content Generation,PCG)近年来成为游戏行业的一大热点,即通过程序算法自动生成游戏内容,提高制作效率。

由于消耗速度远快于生产,程序化生成游戏关卡的需求尤为突出。比如你可能花几分钟就完成一关《超级马里奥兄弟》,游戏制作方却需要几天或几周的时间来开发。此前行业已有基于构造、基于搜索和基于模型等方法,但这些方法生成的关卡通常缺少对实际游戏体验的建模,例如:难度、节奏等。

利用 AI bot 技术自动生成游戏关卡的优势明显,AI bot 可以作为人类玩家的代理,代替人类进行大规模地关卡评估和测试,降低人力成本;还能提供更多语义信息,减少对训练数据的依赖;以及根据语义信息提升生成关卡的游戏体验。

腾讯 AI Lab 正探索将 AI 自动生成关卡技术应用于 2D、3D 等类型的游戏之中。在本次大会上,我们以一款自研的 2D 小游戏作为案例,只需要不到一百个训练关卡作为输入,AI 即可在几个小时内生成一千多个可玩的、高质量、多样化的关卡。

具体到技术方案,AI 的第一个任务是生成可玩的关卡。我们可以借助 AI bot 跑图并筛选出可玩的关卡,这里的核心是如何训练一个通关能力强、泛化能力好的 AI bot,它可以评估大量没有见过的关卡。在特征上,我们使用以 AI bot 为中心的相对位置特征,去除了绝对坐标相关的特征,防止模型过拟合;在数据上,我们使用大量生成的关卡作为 AI bot 的训练关卡,提高泛化能力;在模型上,我们使用 PPO 算法和 RND 算法让 AI bot 更稳更快地探索通关。最后利用 AI bot 跑图测试滤掉不可玩的关卡。

第二步,在可玩的基础上,AI 要提升关卡的质量,高质量的关卡是指符合游戏设计规范、美学、乐趣等,更重要的是需要和种子关卡的游戏体验是一致的。我们可以通过 AI bot 跑图模拟对局结果,可以获取体验相关的特征,例如:每帧的承伤、子弹位置等,然后基于种子关卡和少量人类标注数据训练评估器模型。最后结合 MCTS 算法和评估器模型进行搜索,相比随机搜索,MCTS 生成的关卡的评估得分提升约 50%。

最后,重复相似的关卡会直接影响玩家的体验,因此 AI 还要能识别并去除相似的关卡。我们采用的是无监督训练模型自编码器,该方法不需要依赖有标注的数据,在自编码器的基础上,我们加入了 AI bot 跑图的语义信息作为监督信号,让自编码器的隐层去预测跑图结果,这样可以使得关卡编码向量除了刻画关卡的视觉信息之外,还可以刻画游戏体验的语义信息。最后通过自编码器学习到的关卡编码向量进行相似度计算,从而过滤掉相似的关卡。

此外,AI 还可以用于动态难度调整,让玩家能从具有挑战的关卡中获得成就感,又不至于“卡关”。我们的方法是通过 AI bot 模拟不同 buff 的难度效果,建立 buff 与难度之间的映射,根据玩家实际的表现,动态投放合适的 buff 来提升玩家的心流体验。

借助关卡编辑器工具,AI 还可与玩家协作生成关卡,AI 可以根据玩家制作和修改的关卡来迭代模型训练和关卡生成的效果,玩家也可以获得更高质量和更多样的关卡进行二次创作。这也是用户生成内容(UGC)趋势下,AI 技术的潜在应用之一。

相比之下,AI 生成 3D 关卡内容则要复杂得多,3D 关卡涉及地形起伏、元素之间的关联、不同分辨率的元素、路线与区域规划等,更考验 AI 的生成能力。目前腾讯 AI Lab 已在约 200 个训练关卡的基础上,结合人类的标注编辑,生成了超过一万个 3D 关卡,并在持续探索 AI 在 3D 领域的多种内容生成能力。