【论文解读】针对机器人技术的大模型
1、简要介绍
大型语言模型(LLM)经历了显著的发展,并越来越多地跨各个领域集成。值得注意的是,在机器人任务规划领域,LLM 利用其先进的推理和语言理解能力,基于自然语言指令制定精确和高效的行动规划。然而,对于机器人与复杂环境交互的具体化任务,由于与机器人视觉感知缺乏兼容性,纯文本 LLM 经常面临挑战。本研究提供了一个新兴的 LLM 和多模态 LLM 集成到各种机器人任务的全面概述。此外,论文还提出了一个利用多模式 GPT-4V,通过结合自然语言指令和机器人视觉感知来增强具身任务规划的框架。基于不同数据集的结果表明,GPT-4V 有效地提高了机器人在具体化任务中的性能。对各种机器人任务中的 LLM 和多模态 LLM 的广泛调查和评估丰富了对以 LLM 为中心的具身智能的理解,并为弥合人类-机器人-环境交互中的差距提供了前瞻性的见解。
2、背景
随着预训练模型在模型规模和数据量方面都有所扩展,一些大型预训练模型在一系列复杂任务中表现出了显著的能力。大型语言模型(LLM)由于其特殊的上下文出现能力,在各个领域获得了广泛的关注。这种新兴的能力以前所未有的方式赋予了人工智能算法的权力,重塑了人们利用人工智能算法的方式,并促使人们对人工通用智能(AGI)应用的可能性进行重新评估。随着 LLM 的快速发展,利用指令调优和对齐调优已成为使它们适应特定目标的主要方法。在自然语言处理(NLP)领域,LLM 在某种程度上可以作为语言相关任务的通用解决方案。这些基于 transformer 的大型模型在多个领域展示了非凡成就,深刻地改变了人工智能的技术水平。研究范式也转向用于解决特定领域的问题。在计算机视觉(CV)领域,研究人员也在开发大型模型,类似于 GPT-4 和 Gemini ,它结合了视觉和语言信息,从而支持多模态输入。这种增强 LLM 的策略不仅提高了它们在下游任务中的性能,而且通过确保与人类的价值观和偏好保持一致,为机器人技术的发展提供了重要的指导。这种方法已被广泛应用于许多领域,甚至是在卷积神经网络(CNNs)一直是主要技术的领域。LLM 处理和内化大量文本数据的能力为增强机器的理解和自然语言分析能力提供了前所未有的潜力。这种能力扩展到理解手册和技术指南等文档,并将这些知识应用于连贯、准确和与人一致的对话。通过对话,自然语言指令从文本提示翻译成机器可理解的代码,触发相应的动作,从而使机器人更具适应和灵活地容纳广泛的用户命令。将真实世界的传感器模态集成到语言模型中,有助于建立语言和感知之间的联系,使它们能够在各种特定任务中应用。然而,只有文本的 LLM 缺乏对物理世界的体验经历和观察的经验结果,这使得在特定环境中使用它们进行决策具有挑战性。因此,将多模态纳入 LLM 对于有效执行机器人任务至关重要。此外,机器人技术领域在任务中呈现出更微妙的变化。与 NLP 和 CV 不同,它们可以利用来自互联网的广泛数据集,获取大型和多样化的机器人交互数据集是困难的挑战。这些数据集通常要么关注单个环境和对象,要么强调特定的任务域,从而导致它们之间的巨大差异。当将 LLM 与机器人技术集成时,这种复杂性带来了更重大的挑战。如何克服机器人技术带来的挑战,并利用 LLM 在其他领域的成就,使机器人领域收益,是本综述的核心问题。在本文中,该工作的贡献可以总结为四个要点。•论文精心调查和综合现有的 LLM,探索三个不同任务类别的最新进展:规划、操作、推理。•论文总结了 LLM 在机器人领域提供的主要技术方法,研究了训练广义机器人策略的潜力,并为该领域的研究人员提供了一个基础性的调查。•论文评估了多模态 GPT-4V 在不同环境和场景下的机器人任务规划中的有效性。•论文总结了论文的调查的关键发现,仔细讨论了在未来的努力中需要解决的突出挑战,并提出了一个前瞻性的观点。
3、机器人任务范围
3.1 规划
1)自然语言理解:在机器人规划中,大型语言模型因其先进的自然语言理解能力而表现出色。它们将自然语言指令翻译为机器人的可执行动作序列,这是机器人规划的一个关键方面。本研究表明,即使没有视觉输入,LLM 也可以仅根据语言指令生成准确的动作序列。通过少量的视觉信息,他它们的性能得到了显著的提高,使它们能够创建精确的视觉-语义规划。这些规划将高级自然语言指令转换为虚拟代理承担复杂任务的可操作指导。这种能力强调了 LLM 集成多模态信息的潜力,从而提高了它们的理解能力。它还展示了它们解释和合并来自各种模式的信息的能力,从而导致一个更全面的任务理解。此外,从自然语言理解的大型语言模型中生成动作序列的研究进一步证实了 LLM 在机器人规划中的有效性。LLM 在与物理环境同步地解释自然语言命令方面也显示出了巨大的前景。使用接地解码方法,它们可以产生与物理模型的概率相一致的行为序列,这展示了该方法在机器人规划任务中的有效性。
对复杂顺序任务规划的研究突出了 LLM 能力的重大进展。Text2Motion 的研究表明,LLM 不仅擅长处理语言信息,而且还擅长处理技能序列中的依赖关系。这是通过几何上可行的规划实现的,标志着抽象指令解释和理解复杂任务结构的关键进展。此外,LLMPlanner 研究通过将 LLM 与传统规划器集成,提高了它们在机器人规划中的自然语言理解能力。这种协同作用说明了如何利用 LLM 的 NLP 熟练度来提高规划任务的效率和精度。此外,LLM+P 利用了经典规划者的能力,使用规划领域定义语言(PDDL)和问题线索来为 LLMs 创建特定任务的问题文件。这种整合显著提高了 LLM 在处理长期规划任务方面的效力。此外,SayPlan 通过整合一个经典的路径规划器来解决规划范围的问题。通过这样做,SayPlan 能够建立来自抽象和自然语言指令的大规模、长期的任务规划,使移动操作机器人能够成功地执行它们。此外,LLM 在搜索算法中显示出了作为启发式策略的潜力,同时也作为常识性知识的宝库。LLM 的这种双重作用不仅增强了这些算法的推理能力,而且有助于预测潜在的结果。这种方法充分利用了 LLM 的潜力,利用它们的高级推理能力来有效地规划复杂的任务。这种双重应用强调了大型语言模型在任务规划和解决问题解决方面的广泛和通用的潜力。
对 LLM 进行的研究显示了它们解析和理解自然语言理解的非凡能力。这种能力延伸至不仅仅是文本匹配到深刻的语义理解,还包括任务的目的和上下文。LLM 的一个关键方面是将它们所理解的指令转换为机器人的可执行动作序列,这是机器人任务规划中的一个基本特征。LLM 显著提高了指令生成的质量和适应性,使其能够创建具有上下文感知和特定于环境的复杂动作序列。这些模型在管理各种任务规划的复杂性和类型方面展示了多功能性,从简单的物理交互到复杂的、长期的序列规划。这些研究突出了 LLM 作为独立决策者和与其他模式做规划算法的合作者的潜力。这种合作在解释自然语言和推进机器人规划方面至关重要。随着研究的进展,LLM 有望在机器人技术和自动化系统领域发挥越来越重要的作用。
2)复杂任务推理和决策:在复杂任务推理和决策领域,由 LLM 驱动的机器人表现出了非凡的熟练程度。这些基于 LLM 的机器人规划任务已经大大超越了单纯的文本生成和语言理解的领域。最近的研究强调了语言模型在管理复杂的任务、从事逻辑推理、做出明智的决策和参与互动学习方面的巨大能力。这些突破不仅扩大了论文对基于 LLM 的机器人规划潜力的理解,也为创新的实际应用打开了大门。在探索预训练语言模型(PLMs)在交互式决策中的应用时,研究已经展示了如何将目标和观察结果转化为嵌入序列,用 PLMs 初始化网络。该策略的泛化能力在多元环境和监督模式中特别有效。在多模态领域的一个显著进展是 LM-Nav 系统的发展。该系统以 plm 为基础,集成了语言、视觉和行动模型,通过高级自然语言命令来指导机器人导航。值得注意的是,它通过合并预先训练好的视觉导航、图像-语言相关性和语言理解模型,它减少了对昂贵的轨迹注释监督的依赖。关于特定环境下的 LLM,研究人员研究了他们通过自然语言反馈和复杂任务规划的推理能力。这种能力对于遵循高级任务指令和增强模型在现实场景中的适用性至关重要。针对自然语言理解和决策中的一致性容错问题,创新的 ReAct 模型克服了交互环境中语言推理的局限性。它解决了幻觉产生和错误信息传播等挑战。通过利用 LLM 来维护工作记忆和抽象地概念化高级目标的潜力,ReAct 模型在各种任务中实现了显著的性能改进。与此同时,为了解决应用于机器人技术的大型语言模型(LLM)中的幻觉预测,KnowNo 为任务完成提供了统计保证,同时最大限度地减少了在复杂的多步骤规划场景中对人工援助的需求。值得注意的是,KnowNo 与 LLM 无缝集成,而不需要进行模型微调,这为建模不确定性提供了一种轻量级和有前途的方法。这种方法与基础模型不断发展的功能相一致,提供了一个可扩展的解决方案。此外,还提出了一种涉及预条件误差线索的策略,使 LLM 能够提取可执行规划。这种方法为代理在任务执行中的独立性和适应性提供了一个新的视角。在多智能体协作方面,语言模型与动作智能体的集成正在被越来越多地探索。通过将 LLM 与在特定环境中执行任务的代理配对,建立了一个由规划者、执行者和汇报者组成的系统。这种安排显著地提高了在复杂任务中进行推理和执行的效率。预先训练的 LLM 的新兴领域正在见证一个显著的趋势:这些模型越来越擅长理解和执行复杂的任务,与现实世界的场景紧密一致。这一进步不仅强调了预训练模型的适应性和多功能性,而且也预示着下一代人工智能的出现。随着这些技术的发展,论文预计创新应用将会激增,并将彻底改变各种行业。这些任务的一个关键方面是利用 LLM 的强大的语言理解和生成能力来进行复杂的推理和决策过程。这一领域的每项研究都探讨了 LLM 在复杂认知功能中的潜力。许多模型采用自监督学习,有些模型结合了微调,以更好地适应特定的任务。这种方法使 LLM 能够在下游任务辅助推理中表现出色,从而导致更精确和量身定制的决策。尽管 LLM 在复杂的推理和决策中被广泛使用,但具体的技术和方法各不相同,特别是在任务处理、学习策略和反馈机制方面。这些模型在不同的现实世界中找到了应用,包括家庭自动化、机器人导航和任务规划等,展示了其广泛和不断发展的实用性。
3)人机交互:在人机交互领域,AGI 语言模型的高级推理能力使机器人具有显著程度的泛化能力。这使他们能够适应以前未见过的环境和任务中的新任务规划。此外,LLM 的自然语言理解界面促进了与人类的交流,为人机交互开辟了新的可能性。广泛的研究强调了 LLM 在协助智能任务规划方面取得的进展,从而增强了多智能协作通信。研究发现,利用自然语言提高多智能合作的效率是提高沟通效率的有效方法。一个显著的例子是 OpenAI 的 ChatGPT,它在机器人应用中的能力通过严格的实验进行了评估。研究结果显示,ChatGPT 擅长于复杂的任务,如逻辑、几何和数学推理,以及机载导航、操作和控制实体代理。它通过自由形式的对话、解析 XML 标签和合成代码等技术来实现这一点。此外,ChatGPT 允许用户通过自然语言命令进行交互,为创新机器人系统的开发提供了重要的指导和见解,该系统以自然和直观的方式与人类进行交互。类似地,也有一个被提出的框架,它利用大规模的语言模型来实现协作体现智能。该框架允许使用语言模型进行有效的规划和沟通,促进各种智能和人类之间的协作,以处理复杂的任务。实验结果表明,该方法在现场的应用明显优于传统方法。
3.2 控制
1)自然语言理解:在机器人控制领域,LLM 的自然语言理解能力可以帮助机器人进行常识性分析。例如,LLM-GROP 演示了如何从 LLM 中提取语义信息,并作为一种常识性的、语义有效的决策,作为任务的一部分,在复杂环境中执行多步任务,以响应自然语言命令。该研究提出了一个将语言置于智能体核心的框架。通过利用这些模型中包含的先验知识,可以设计出更好的机器人代理,能够直接在现实世界中解决具有挑战性的任务。通过一系列的实验,论文演示了如何利用底层模型的知识和功能,更有效率和多功能性地解决各种问题。同时,本研究引入了语言条件碰撞函数(LACO),这是一种仅使用单视图图像、语言提示和机器人配置来学习碰撞函数的新方法。LACO 预测了机器人和环境之间的碰撞,从而实现了灵活的条件路径规划。通过利用这些模型中包含的先验知识,可以设计出更好的机器人代理,能够直接在现实世界中解决具有挑战性的任务。通过一系列的实验,论文演示了如何利用底层模型的知识和功能,更有效率和多功能性地解决各种问题。同时,本研究引入了语言条件碰撞函数(LACO),这是一种仅使用单视图图像、语言提示和机器人配置来学习碰撞函数的新方法。LACO 预测了机器人和环境之间的碰撞,从而实现了灵活的条件路径规划。除了提示性方法外,基于预训练的 lm 进行下游任务微调也是机器人控制领域的一种常见方法。例如,研究表明,预先训练的视觉语言表示可以有效地提高现有探索性方法的样本效率。R3M 研究了在不同的人类视频数据上预先训练的视觉表示如何使下游机器人操作任务的数据高效学习。LIV 在一个大型的广义人类视频数据集上进行训练,并在一个小型机器人数据集上进行微调,经过微调以在三种不同的评估设置中优于最先进的方法,并成功地执行真实世界的机器人任务。这一组研究共同说明了 LLM 和自然语言理解技术在推进机器人智能方面的重要作用,特别是在理解和执行复杂的、基于语言的任务方面。这些研究的一个关键重点是模型泛化的重要性,以及在不同领域应用这些模型的能力。每项研究虽然共享这一共同的主题,但在其具体的重点和应用方法上都存在分歧。例如,LLM-GROP 致力于语义信息的提取和应用。相比之下,VIMA 和 TIP 专注于多模态处理和学习。此外,微调预先训练的 lm 的方法旨在提高应用程序效率和特定于任务的优化。总的来说,这些研究表明,将复杂的自然语言处理技术与机器学习策略相结合可以大大提高机器人系统的效率,特别是在它们理解和执行复杂任务的能力方面。这一进步是在机器人控制中实现更大的智能和自主性的关键一步。
2)互动策略:在交互策略领域,TEXT2REWARD 框架引入了一种使用 LLM 生成交互式奖励代码的创新方法。该方法自动产生密集的奖励代码,增强了强化学习。此外,通过使用大型语言模型来定义奖励参数,这些参数可以被优化以完成各种机器人任务,从而可以有效地弥补高级语言指令或修正和低级机器人动作之间的差距。语言模型产生的奖励作为一个中间界面,使机器人的高级指令和低级动作之间能够无缝地通信和协调。此外,VoxPoser 还提供了一个用于机器人操作的通用框架,其区别在于它能够直接从 LLM 中提取可操作性和约束条件。这种方法显著提高了机器人对开集指令和不同对象的适应性。通过将 LLM 与视觉语言模型集成并利用在线交互,VoxPoser 有效地学习与复杂的任务动态模型进行交互。LLM 的应用也扩展到人机交互。LILAC 系统通过可伸缩的、人类和机器人之间的语言驱动交互机制证明了这一点。它将自然语言话语转化为低维控制空间内的可操作命令,使机器人能够得到精确和用户友好的指导。重要的是,每个用户校正都改进了这个控制空间,得到越来越有针对性和准确的命令。DouultRL 提供了另一个创新的框架,旨在增强人工智能协作。它侧重于训练强化学习代理来解释和作用于人类提供的自然语言指令。该系统使用 LLM 根据这些指令制定初始策略,指导强化学习代理在协调中实现最佳平衡。最后,针对基于语言的人机交互,开发了一种新颖的、灵活的 LILAC 接口。它允许用户使用文本输入和场景图像来改变机器人的运动轨迹。该系统协同了预先训练过的语言和图像模型,如 BERT 和 CLIP,使用 transformer 编码器和解码器来操纵三维和速度空间中的机器人轨迹。该方法在模拟环境中是有效的,并通过实际应用证明了其实用性。所有这些技术和方法都在不同程度上依赖于高级语言建模,以增强人类机器人的交互和机器人控制。它们共同强调了 LLM 在解释和执行人类意图方面的关键作用。每种方法都旨在提高机器人的适应性和灵活性,使它们能够更有效地处理不同的任务和环境。具体来说,TEXT2REWARD 代码将专注于生成和优化奖励代码。这提高了强化学习策略的有效性。相反,VoxPoser 侧重于从 LLM 中提取操作符和约束。同时,LILAC 和 DuultRL 采用了不同的方法来解释和执行自然语言命令。LILAC 优先将语言映射到控制空间,而 StructRL 则致力于训练强化学习代理来理解和遵循自然语言指令。此外,最后讨论的基于语言的人机交互研究探索了如何直接从文本和图像中提取用户意图,并将其应用于各种机器人平台。这方面使它有别于其他可能不包含此特性的方法。总的来说,这些研究标志着将 LLM 技术集成到机器人技术中的重大进展。虽然它们的应用领域和方法有不同的焦点,但它们共同展示了人工智能的创新潜力。此外,它们还为未来的人机交互领域的探索铺平了道路。
3)模块化方法:机器人控制的最新进展强调模块化方法,允许创建更复杂和功能丰富的机器人系统。最近的研究强调了这一趋势的关键方面。程序端口提出了一个基于程序的模块化框架,专注于机器人操作。它通过将自然语言的语义结构翻译成编程元素来解释和执行语言概念。该框架包括神经模块,擅长学习一般视觉概念和特定任务的操作策略。这种结构化的方法明显地增强了视觉基础和操作策略的学习,提高了对看不见样本和合成环境的泛化。
接下来,研究人员探索了使用 LLM 来加速机器人系统的策略适应,特别是在遇到新工具时。通过生成几何形状和描述性工具模型,然后将其转换为向量表示,LLM 促进了快速适应。这种语言信息和元学习的集成在适应不熟悉的工具方面显示出了显著的性能提高。
此外,将基于 ViLD 和 CLIP 的视觉语言模型 NLMap 与 SayCan 框架结合起来,实现了更灵活的场景表示。这种组合对于长期规划特别有效,特别是在开放世界场景中处理自然语言命令时。NLMap 增强了基于 LLM 的规划者了解其环境的能力。
“Scaling Up and Distilling Down”框架结合了 LLM、基于抽样的规划者和策略学习的优势。它自动生成、标签和将丰富的机器人探索经验提取为一个通用的视觉-语言运动策略。这种多任务策略不仅继承了长期的行为和稳健的操作技能,而且在训练分布之外的场景中表现出了更好的性能。
MetaMorph 引入了一种基于 transformer 的方法来学习一个适用于大型模块化机器人设计空间的广义控制器。这种方法使使用机器人形态作为 transformer 模型输出。通过对不同形态的预训练,这种方法生成的策略显示了对新形态和任务的广泛普遍性。这展示了在机器人技术领域进行广泛的预训练和微调的潜力,类似于视觉和语言领域的发展。
在这些研究中,都采用了模块化的方法,增强了系统对新任务和环境的灵活性和适应性。这些工作广泛地利用了深度学习技术,特别是与 LLM 协同使用,以增强机器人系统的理解和决策能力。此外,这些研究的一个重要重点是自然语言处理的应用。这是通过对语言命令的直接解释或通过语言丰富的学习和适应过程来明显的。其主要目标是提高机器人在新环境和任务中的快速泛化和适应能力。虽然所有的研究都采用了深度学习和 LLM,但它们的具体实现和应用程序是多种多样的。有些研究集中于语言描述和理解,而另一些研究则探索视觉和语言的融合。研究目标是多种多样的,解决了从适应新工具、长期战略规划到多态机器人控制的挑战。尽管在技术方法、应用领域和目标任务上存在差异,但每项研究都显著地有助于提高机器人系统的智能和自适应能力。
3.3 推理
1)自然语言理解:在机器人推理任务领域中,基于自然语言理解的 LLM 作为一个基本的知识库,为各种任务提供至关重要的常识见解。大量的研究表明,LLM 可以有效地模拟类人的状态和行为,特别是与执行家庭清洁功能的机器人的研究相关。这种方法不同于传统的方法,后者通常需要昂贵的数据收集和模型训练。相反,LLM 利用现成的方法在机器人技术中进行泛化,受益于它们从广泛的文本数据分析中磨练出来的强大的总结能力。此外,LLM 的常识推理和代码理解能力促进了机器人和物理世界之间的联系。例如,在 LLM 中引入编程语言特性已被证明可以提高任务性能。这种方法不仅直观,而且足够灵活,可以适应新的场景、代理和任务,包括实际的机器人部署。与此同时,GIRAF 利用大型语言模型的力量来更灵活地解释手势和语言命令,使人类意图的准确推断和手势含义的语境化成为可能,从而实现更有效的人机协作。这一领域的一个创新发展是 Cap(代码即策略),该公司提倡以机器人为中心的语言模型生成程序。这些程序可以适应机器人操作堆栈的特定层:解释自然语言命令,处理感知数据,以及参数化原始语言控制的低维输入。这种方法的基本原则是,分层的代码生成有助于创建更复杂的代码,从而提高了这一领域的最先进水平。Cap 中的家庭清洁应用程序和以机器人为中心的语言模型生成程序都突出了 LLM 在提供常识知识和解释自然语言指令方面的优势。传统的机器人技术通常需要大量的数据收集和专门的模型训练。相比之下,LLM 通过利用它们对文本数据的广泛训练来减轻这种需求。LLM 的代码理解和生成能力特别重要,它使机器人能够更有效地与物理世界进行交互,并执行复杂的任务。然而,在应用重点上有一个区别:家庭清洁功能倾向于强调日常任务和环境适应性,而 Cap 则侧重于通过语言模型生成程序(LMPs)来编程和控制机器人更多的技术行为。总之,将 LLM 集成到机器人推理任务中,强调了它们在自然语言理解、常识知识提供、代码理解和生成方面的卓越能力。这些特性不仅减轻了与传统机器人技术相关的数据收集和模型训练负担,而且还增强了机器人的泛化性和灵活性。通过充分的训练和调整,LLM 可以应用于各种场景和任务,展示了它们在未来机器人技术和人工智能中的巨大潜力和广泛的适用性。
2)复杂任务推理和决策:在复杂任务推理和决策领域,各种研究利用 LLM 的推理能力来增强特定下游任务的细化。例如,SayCan 利用 LLM 中嵌入的广泛知识和强化学习来具体化任务。这种方法包括使用强化学习来揭示关于个人技能价值功能的见解。然后,它使用这些技能的文本标签作为潜在的响应,而 LLM 为任务完成提供总体语义指导。
另一个值得注意的发展是 Instruct2Act 框架。它提供了一个用户友好的、通用的机器人系统,使用 LLM 将多模态命令转换为机器人领域的一系列动作。该系统使用由 LLM 生成的策略代码,它对各种视觉基础模型进行 API 调用,从而实现对任务集的视觉理解。
LLM 在自我规划和 PDDL(规划领域定义语言)规划中的使用也被探索了。结果表明,LLM 输出可以有效地指导启发式搜索规划器。
在故障解释和修正任务领域,REFLECT 框架利用由多感觉观察产生的机器人过去经验的分层总结来查询 LLM 的故障推理。所获得的失败解释可以指导基于语言的规划者来纠正失败并成功地完成任务。
此外,自适应预训练的多模态模型是一种常见的策略。通过将视觉语言模型与机器人数据的预训练相结合,以训练视觉语言动作(VLA)模型,研究人员发现,在具有多达 550 亿个参数的互联网数据上训练的模型可以生成有效的机器人策略。这些模型表现出更强的泛化性能,并受益于网络上广泛的视觉-语言预训练能力。
Socratic 模型代表了另一种方法,其中多个大型预训练模型之间的结构化对话有助于对新的多模态任务的联合预测。该方法在多个任务中都实现了 zero-shot 性能。
在这些研究中,主要关注的是利用 LLM 来自动化推理和决策过程。这是通过利用 LLM 提供或利用高级语义知识的能力来实现的,从而增强了任务的执行能力。一些方法将 LLM 与其他模式相结合,如视觉和行动,以加深对任务的理解和执行。另一些则在以前看不见的任务上表现出有效的表现,展示了零镜头或少镜头的学习能力。
每项研究都采用了一种独特的方法来整合 LLM。例如,SayCan 整合了强化学习,而 Instruct2Act 则以多模态指令的直接映射为中心。所采用的技术——从强化学习、启发式搜索到多模态预训练搜索——在机器人操作、规划和自动化决策等不同的应用领域中存在显著差异。这些研究共同说明了 LLM 在管理复杂任务推理和决策方面的巨大潜力。
通过将 LLM 与其他技术,如强化学习和多模态数据处理相结合,可以实现更深入的语义理解和更有效的决策支持。这在机器人技术和自动化中尤为明显,这种集成的方法正在为新的应用程序铺平道路。然而,这些方法的有效性在很大程度上取决于任务的具体性质、所使用的数据和模型训练方法。因此,每种方法的选择和应用都必须根据具体的情况进行精心定制。
3)交互策略:LLM 的最新进展对交互策略的发展做出了重大贡献,展示了在语言生成和类人推理方面令人印象深刻的能力。Matcha 利用 LLM,增强了交互式的多模态感知,说明了 LLM 在理解各种类型的输入数据方面的潜力,如视觉和听觉。该方法提出了一种增强的 LLM 多模态交互代理。该代理不仅利用了 LLM 中固有的常识性知识来进行更可信的交互式多模态感知,而且还证明了 LLM 在进行这种感知和解释行为方面的实际应用。
生成代理,是为模拟人类行为而设计的交互式计算代理。这些代理的体系结构被设计为存储、合成和应用相关的内存,从而使用大型语言模型生成可信的行为。LLM 与这些计算代理的集成有助于创建高级的体系结构和交互模式。这种组合使机器人更真实的模拟人类行为,扩展了 LLM 的潜在应用。
基于 LLM 的交互策略的重点是将 LLM 与其他感知系统的融合,如图像识别和语音处理。这种融合旨在模仿人类的能力,提高认知和处理能力。这些进步在智能助手、机器人技术和增强现实系统等领域有着深远的影响。
在所讨论的工作中,重点强调了多模态感知,重点是提高系统理解和与环境交互的能力。此外,对人类行为的模拟试图在人工智能中复制人类的思维和行动过程。这两个方向的融合有望创造出更强大、更多功能的智能系统。这些系统被设想在更复杂和人性化的水平上与人类互动,提出重大的技术挑战,并提出关键的伦理和社会适应问题。
4、GPT-4V 赋能的具体化任务规划
基于上述对具身任务和 LLM 的调查,论文在本研究中开发了一个基于 GPT-4V 的具身任务规划框架,并进行了评价实验,如图 1 所示。下面的部分提供了关于数据集、提示设计和实验结果的详细信息。
4.1 数据集为了全面评估 GPT-4V 的多模态具体化任务规划能力,论文从 9 个数据集中选择了 40 多个案例,重点是控制和抓取。这些操作是指令跟踪机器人技术的基础,涉及到不同场景中的各种人工指令,如厨房整理和桌面重排。所选的数据集可以通过谷歌开放的 x 实施例数据集进行访问。在每一种情况下,视频演示和自然语言指令都可以作为评估 GPT-4V 作为机器人大脑的输入。这种设置支持基于自然语言指令的鲁棒规划来生成机器人动作。4.2 提示设计提示的设计在查询 LLM 中起着至关重要的作用。一个精心制作的提示,丰富的信息和清晰的结构,可以产生更符合给定指令的更精确和一致的输出。在这里,论文通过合并图像来更新文本提示,创建一个多模态提示,指导 GPT-4V 生成机器人任务规划。多模式提示由五个部分组成:系统角色说明:指定 GPT-4V 在其响应中所采用的任务和角色。预定义动作池:一组预定义的机器人动作,GPT-4V 可以从中选择和排序,逐步完成任务。为了解决词汇表限制,必要时会提示 GPT-4V 创建新的操作。输出示例:一个 JSON 格式的示例来说明预期的输出并确保一致性。逐例环境图像和自然语言指令:包括从视频演示中提取的第一帧作为环境图像。评估: GPT-4V 的任务是根据 ground truth 视频演示对生成的任务规划进行评估,根据其与视频的对齐情况对该规划进行评分,并提供解释。前三个组件作为每个查询的系统消息输入,而后两个作为用户消息根据测试数据而不同。完整的提示如附录中的图 4 所示。
5、实验结果在论文的实验框架中,大型语言模型(LLM)首先生成根据每个机器人任务的目标量身定制的逐步指令。随后,在这些生成的指令的指导下,模型从预定义的动作池和动作对象中选择最合适的操作,以形成每个步骤的动作规划。在获得由 LLM 生成的指令后,论文通过将其与来自各自视频数据集的 ground truth 指令进行比较,定量评估生成的结果。对 9 个公开的机器人数据集进行了严格的测试,得出了深刻而有见解的发现。例如,在 RT-1 Robot Action 数据集中,如图 2 顶部面板所示,多模态 LLM 能够准确地识别出目标对象,并熟练地分解和执行任务。如图 2 左上角所示,根据给定的环境和指令,LLMs 生成的指令如下:1)将手移动到底部抽屉中的目标位置;2)抓住目标;3)将手与目标移动到柜台;4)将目标放到柜台上。在提供详细的逐步文本指令之后,LLM 将从操作池中进行选择,并列出一组符合当前策略的指令和对象。例如,“移动的手(底部的抽屉)”是第一个文本指令的函数表达式,便于随后通过控制机械臂的接口代码直接使用这个行动规划。此外,通过 LLM 生成的“环境状态”,该模型可以有效地理解一系列操作后环境中关键对象不断变化的空间关系。图 2 中的“匹配分数”也展示了模型的精度。在上述测试用例中,场景涉及到更少的对象和相对简洁和清晰的任务指令。因此,论文进一步进行了涉及语义模糊的任务描述和复杂场景的测试。图 2 的左中角代表了来自 QT-Opt 数据集的一个测试用例,其中的指令是简单地“选择任何东西”,而没有指定场景中的任何实体。从 LLM 生成的结果来看,它产生了一系列适合于抓取任何物体的广义指令,与 ground truth 保持高度的一致性。对于复杂的场景,如图 2 所示,论文测试了来自 Berkeley bridge 数据集的一个典型案例。输入指令“将银色碗从红色罐头前面移动到桌子前面边缘的蓝色毛巾旁边”涉及多个物体及其在场景中的空间关系。在这里,LLM 不仅掌握了任务的目的,而且还熟练地执行了任务的细节,体现了他们先进的图像理解和逻辑推理能力。图 2 和图 3 进一步证明了 LLM 在不同和复杂的场景下(包括数据集)中的有效性。在这些实验中,LLM 表现出了显著的性能,即使是在具有复杂的设置或特定需求的任务中。表 I 给出了 GPT-4V 在 9 个不同数据集上自我评估的平均匹配得分,表明生成的任务规划和 ground truth 演示之间的一致性。这巩固了论文的方法的有效性,并强调了多模态 LLM 在机器人任务执行中的强大的图像理解和逻辑推理能力。其他测试结果可在附录中找到。
6、局限,讨论和未来的工作
论文概述了将大型语言模型(LLM)集成到各种任务和环境的机器人系统中,并评估了多模式任务规划中的 GPT-4V。虽然 GPT-4V 作为一个进行任务规划的机器人大脑表现出令人印象深刻的多模式推理和理解能力,但它面临着几个限制: 1)生成的规划是同质的,缺乏详细的实施例和具体的、鲁棒的设计来管理复杂的环境和任务。2)目前的多模态 LLM,如 GPT-4V 和谷歌 Gemini,需要精心制作的、冗长的提示来产生可靠的输出,这需要领域的专业知识和广泛的技巧。3)机器人受到预定义动作的约束,限制了其执行自由度和鲁棒性。4)GPT-4V API 的闭源代码特性和相关的时间延迟可能会阻碍嵌入式系统的开发和实时商业应用程序。未来的研究应该致力于解决这些挑战,以开发更健壮的 AGI 机器人系统。另一方面,多模态 GPT-4V 在机器人技术中所表现出的高级推理和远见语言理解能力突出了以 LLM 为中心的 AGI 机器人系统的潜力。向前发展,以多模态-LLM 为中心的 AGI 机器人具有跨不同领域的应用潜力。在精准农业领域,这些机器人可以在各种劳动密集型的任务中取代人类劳动,特别是在收获方面。这包括诸如水果采摘和作物表型分析等任务,这需要在复杂的农场环境中进行先进的推理和精确的行动。在医疗保健领域,对安全性和精度的迫切需求对多模态 LLM 的感知和推理能力提出了更大的要求。这方面在机器人辅助筛查和手术中尤为重要,根据个人需求量身定制的任务是最重要的。此外,利用像 CLIP 这样的对比学习模型将大脑信号与自然语言对齐,为在 LLM 为中心的 AGI 机器人系统中开发脑机接口(BcI)提供了一条途径。这些系统可以读取和解释人类大脑信号,如脑电图和功能磁共振成像,以便在复杂任务完成进行自我规划和控制。这一进步可以显著地弥合人类环境互动方面的差距,并减轻身体劳动和认知劳动。
7、结论
在本文中,论文概述了将大型语言模型(LLM)集成到各种机器人系统和任务中的问题。论文的分析显示,LLM 表现出令人印象深刻的推理、语言理解和多模态处理能力,可以显著提高机器人对指令、环境和所需动作的理解。
论文评估 9 个数据集的 GPT-4V 模型,用于具体化任务规划。结果表明,GPT-4V 可以有效地利用自然语言指令和视觉感知来生成详细的动作规划完成操作任务。这表明使用多模态 LLM 作为机器人大脑进行具身智能是可行的。
然而,随着论文朝着更实用和更有能力的基于 LLM 的人工智能系统探索,在模型的透明度、鲁棒性、安全性和现实世界的适用性方面仍存在一些挑战有待解决。具体来说,大型神经模型的黑盒特性使得人们很难完全理解它们的内部推理过程和失败模式。此外,弥合模拟和现实世界之间的差距,在不导致性能下降的情况下传输策略带来了持续的困难。仍然需要进行广泛的研究,通过诸如标准化测试、对抗性训练、策略适应方法和更安全的模型架构等技术来解决这些问题。依赖于 LLM 的自主智能系统的问责制和监督协议也值得慎重考虑。随着论文在这一领域的进展,以谨慎、道德和社会负责的方式克服这些多方面的挑战仍然是必要的。
随着语言模型继续从多模态数据中积累大量的基础知识,论文期待着在将它们与机器人技术和基于模拟的学习相结合取得的快速创新。这可以使智能机器人在部署前使用模拟技术进行直观开发和验证。这些发展可以深刻地增强和改变我们构建、测试和部署智能机器人系统的方式。
总的来说,自然语言处理和机器人技术的协同集成是一个很有前途的前沿领域,它充满了机遇和挑战,值得在未来进行广泛的跨学科研究。
评论