15 小时数据搞定衣物折叠收纳:DexVLA 助力机器人轻松解决复杂任务!

案例简介
在机器人学习领域,如何让机器人在多样化环境中执行复杂任务一直是一个核心挑战。尽管视觉-语言-动作(VLA)模型在实现通用机器人技能方面展现出潜力,但其动作表示和训练效率的局限性仍然阻碍了其进一步发展。
论文标题:DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control
原文链接:https://arxiv.org/pdf/2502.05855
网站链接:https://dex-vla.github.io/
论文作者:Junjie Wen, Yichen Zhu, Jinming Li, Yaxin Peng, Chaomin Shen, Xiaofeng Mou, Feifei Feng
具身平台:松灵双臂遥操作具身平台 CobotMagic
研究背景
机器人学习的终极目标是让机器人能够像人类一样,通过语言指令、环境约束和意外干扰来执行多样化任务。尽管模仿学习和 VLA 模型在这一领域取得了一定进展,但两大瓶颈问题依然存在:
数据稀缺:现有的 VLA 模型依赖于大规模数据集,如 Open-X Embodiment 数据集(4000 小时)或更大的数据集(如π₀使用的 10000 小时数据集)。然而,通过人类演示收集这些数据既昂贵又耗时。
架构不平衡:当前的 VLA 模型往往侧重于扩展视觉-语言模型(VLM)组件,而动作空间表示仍然是一个关键瓶颈。尽管 VLM 通过互联网规模的数据预训练增强了视觉和语言理解能力,但它与机器人动作的具身感知仍然脱节。
基于此,来自美的、华东师范大学、上海大学的研究人员共同提出 DexVLA 创新框架,通过引入扩散模型专家和具身课程学习策略,成功提升了 VLA 模型在复杂任务中的表现,尤其是在多形态机器人上的适应性。
亮点创新
>>>十亿参数的扩散模型专家
传统的动作专家在处理跨具身数据时存在局限性。DexVLA 引入了一个基于扩散模型的动作专家,参数规模达到十亿级别,远超传统的数百万参数模型。这种大规模的参数扩展使得模型能够更好地学习复杂的运动技能和控制策略。
优势:扩散模型专家采用多头架构,每个头对应一个特定的机器人形态,能够有效处理跨具身数据(即不同形态的机器人数据),从而增强了模型的泛化能力。
应用场景:在实验中,DexVLA 展示了其在多种机器人形态(如单臂、双臂、灵巧手等)上的适应性,能够高效完成复杂任务,如衬衫折叠、分拣任务等。

>>>具身课程学习策略
DexVLA 采用了一种三阶段的训练策略,逐步从简单任务过渡到复杂任务,类似于人类学习的过程:
阶段 1-跨具身预训练:专注于学习低级的、与具身无关的运动技能。在此阶段,仅使用跨具身数据预训练扩散模型专家,不涉及视觉-语言模型。
阶段 2-具身特定对齐:将抽象的视觉-语言表示与特定机器人的物理约束对齐。这一阶段使模型能够完成多种任务,如衬衫折叠和分拣任务。
阶段 3-任务特定适应:通过任务特定的微调,使机器人掌握复杂任务,如长时程任务和新物体的泛化。

优势:这种分阶段的训练策略类似于人类学习的过程,从简单到复杂,逐步提升模型的技能水平。相比端到端的训练,这种方法减少了 60%的数据需求,显著提高了训练效率。
实验结果
DexVLA 在多种机器人形态上进行了广泛实验,包括单臂、双臂和灵巧手机器人。实验结果表明,DexVLA 在无需任务特定适应的情况下,能够高效完成复杂任务,如衬衫折叠和长时程任务。此外,DexVLA 在新形态机器人上仅需少量数据即可学习灵巧技能,如倒饮料和包装。

>>>无需任务特定适应的表现
在衬衫折叠、分拣任务等任务中,DexVLA 表现出色,显著优于现有的 OpenVLA、Octo 和 Diffusion Policy 等模型。例如,在衬衫折叠任务中,DexVLA 的得分接近满分(0.92),而其他模型几乎无法完成任何步骤。

>>>在新形态机器人上的学习能力
DexVLA 在新形态机器人上表现出强大的适应性。例如,在倒饮料和包装任务中,DexVLA 仅需 100 次演示即可掌握复杂技能,显著优于其他模型。


>>>复杂长时程任务的直接提示
DexVLA 能够通过直接语言提示完成复杂的长时程任务,如折叠随机褶皱的衣物。相比其他模型依赖高层策略模型(如 SayCan)来分解任务,DexVLA 通过子步骤推理自动分解任务,展示了其强大的推理能力。
开放、共享、协同
松灵机器人自成立以来,一直秉持着赋能开发者的理念,致力于为机器人行业和科研教育构建全面的开发平台。通过共享资源、交流思想、合作创新,共同构建更加完善的机器人训练数据集和测试平台,为机器人的学习和训练提供更加丰富和多样的素材。
欢迎更多高校与科研机构与我们携手共创,共同探索更多新的应用场景和技术方向,为机器人的广泛应用和智能化发展贡献更多的智慧和力量。
评论