开发者说|H-RDT:基于人类操作数据的跨本体机器人学习



• 论文题目:
H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation
• 论文链接:
https://arxiv.org/abs/2507.23523
• 项目主页:
https://embodiedfoundation.github.io/hrdt
H-RDT 架构

H-RDT 是一个具有 20 亿参数的扩散 Transformer,使用流匹配来建模双臂机器人的复杂动作分布。H-RDT 采用两阶段训练范式:1)在大规模第一人称人类数据上预训练;2)通过模块化动作编解码器在机器人数据上进行微调,实现跨本体迁移。
人类动作表征设计
我们采用较为精细的 3D 手部姿态表示方法,将动作编码为紧凑的 48 维向量,以捕捉关键的双手灵巧操作信息:
双手手腕位姿 (Bilateral Wrist Pose) :
(1)左右手的 3D 位置(3×2)与 6D 姿态(6×2),共计 18 维;
(2)与机器人控制中的末端执行器 (End-Effector) 控制参数对齐;
十个手指的指尖位置 (Fingertip Position) :
(1)每个手五根手指,各提取一个三维坐标,总共 10×3=30 维;
(2)用于表达手指张合、握持形态等细粒度操作意图。
总计:18(手腕)+30(指尖)=48 维动作表示
这种表征策略的优势体现在三个方面:
(1)动作通用性强:该表示可以视作覆盖大多数操作型机器人的“上层动作空间”,能覆盖如双臂 7-DoF 机械臂、并联夹爪等控制参数;
(2)保留人类操作的关键特征:指尖相对位置、手腕旋转、抓取姿态等都被编码在其中,保留了对操控几何和力学要素的刻画能力;
(3)提供显式的动力学参数:相比于 point flow 等表征方式,无需额外增加动力学映射,更为聚焦操作语义。
模型结构
H-RDT 构建了一个五模块组成的 DiT (Diffusion Transformer) 框架,负责从多模态感知输入生成机器人控制序列:
视觉编码器 (DinoV2+SigLIP) :提取 RGB 观测的视觉特征;配有 MLP Adapter 映射到 transformer 嵌入空间。
语言编码器 (T5-XXL) :编码自然语言任务指令;同样通过 MLP Adapter 接入主干。
模块化动作编/解码器:编码器对机器人状态向量与噪声动作轨迹分别编码;解码器将输出特征解码为 Action Chunk,其在微调阶段对不同本体重新初始化。
Transformer 主干(类 LLaMA3 架构):使用 SwiGLU 激活与 RMSNorm;使用解耦交叉注意力分别对视觉和语言信息进行融合;流时间 (τ) 通过 AdaLN 注入。
两阶段训练范式
阶段一:人类数据预训练
第一阶段使用 EgoDex 数据集,以 48 维人手动作表征对 H-RDT 进行预训练。EgoDex 数据集包括 338 K+条轨迹、涵盖 194 项不同操作任务,全面覆盖了人类操作策略、物体交互方式以及双手协作。
阶段二:跨本体微调
第二阶段对特定机器人本体微调时,需重新初始化动作编码器和解码器子模块以适应不同本体,其余模块使用预训练权重进行微调。

流匹配训练方法

实验结果
真机实验
我们在三种真实机器人上进行多任务训练,用于验证模型的跨本体迁移能力与实际部署的鲁棒性。
1)Aloha-Agilex-2.0 实验
两项任务均采用基于子任务的评分体系,全部完成视为完全成功。各方法各任务均测试 25 次。
**任务 1 叠毛巾:**测试模型连续折叠柔性物体的能力。

实验结果如下表所示,H-RDT 的完全成功率为 52%,RDT 为 40%,未经人类数据预训练的模型成功率为 0。

任务 2 将杯子放到杯垫上: 该任务测试模型的空间推理能力,要求模型根据杯子的自动选择合适的手去抓杯子(左侧杯子必须用左手抓,右侧杯子必须用右手抓)。

实验结果如下表所示,H-RDT 的完全成功率为 64%,RDT 为 28%,未经人类数据预训练的模型成功率为 20%。

2)双臂 ARX5 小样本实验
我们设计了一个极具挑战的任务:在双臂 ARX5 机器人上完成 113 个不同的抓取放置任务,每个任务仅提供 1 到 5 个示范样本。

实验结果如下表所示,H-RDT 成功率达到了 41.6%,而π0 仅为 31.2%,RDT 为 16%,未经人类数据预训练的模型 17.6%。

3)双臂 UR5+UMI 实验
我们在双臂 UR5 机器人上评估了 H-RDT,人类演示数据通过 UMI 收集。任务为双手协作放置外卖袋,细分为四个连续步骤:右手抓取 → 右手放置 → 左手抓取 → 左手放置。

实验结果如下表所示,H-RDT 完全成功率达到 58.0%,远超 RDT(29%)、 π0(31%)、未经人类数据预训练的版本(16%)。

仿真测试
我们在仿真环境 RoboTwin 2.0 上进行了全面测试,包括单任务和多任务设置:
**单任务实验:**在 RoboTwin 2.0 基准测试的 13 项操作任务上评估单任务性能。每项任务使用简单模式下收集的 50 个演示样本进行训练,并在两种模式下评估:包括简单模式(干净桌面)与困难模式(随机光照、杂乱环境)。
H-RDT 在简单模式下取得了最高 68.7%的平均成功率,在困难模式下为 25.6%,显著优于其他方法;且在简单和困难模式下均大幅超越未经人类数据预训练的版本 (w/o human) ,证明了利用人类操作数据预训练的有效性。

**多任务实验:**在 RoboTwin 2.0 的 45 项任务上进行多任务实验,使用在困难模式下收集的约 2250 个演示样本进行训练,评估了 10 项任务子集。实验结果如下表所示。

在多任务场景中,H-RDT 取得了高达 87.2%的平均成功率,显著优于 RDT(28.8%)、π0(48.4%)和未经人类数据预训练的版本 w/o human(67.2%)。H-RDT 相较于未经人类数据预训练版本 w/o human 平均成功率提高了 20.0%,明显大于在单任务场景。这表明,在多任务场景中,利用人类操作数据进行预训练能提供更好的性能。
**跨本体泛化:**为进一步验证 H-RDT 的跨本体迁移能力,在仿真环境中对两种不同的机器人本体 Aloha-Agilex-1.0 和 Franka-Panda 进行了多任务实验,实验结果如下图所示。

H-RDT 在两种机器人上均表现出很强的性能,在 Aloha-Agilex-1.0 上达到 87.2%的成功率,在 Franka-Panda 上达到 62.9%的成功率,在两个机器人上均显著优于基线方法。
总结与展望
本文提出 H-RDT 模型,使用具有 3D 手部位姿标注的第一人称人类操作视频预训练以增强双臂机器人的操作能力。展望未来,面对数据采集成本高、模型泛化困难等挑战,人类操作数据凭借其极低的采集成本和丰富的操作语义,将成为机器人策略学习不可忽视的新“宝藏”。
评论