智源具身框架 Thor 开源:迈向类人级全身控制,让机器人在强对抗中“站稳脚跟”

还记得面对 1400kg 汽车仍然从从容容游刃有余的宇树 G1 机器人吗?
其背后的核心控制方法,正是智源研究院(BAAI)的具身框架 Thor。
这里的难点并不是让机器人简单模仿“拉”的动作,而在于它能否全身协同,持续稳定地输出巨大拉力,并且在强外力和复杂摩擦下,灵活调整姿态,始终保持平衡。
近年来,人形机器人已经能够展现出高度动态且富有表现力的运动能力。无论是复杂的舞蹈、高难度后空翻,还是流畅地完成一套体操或武术。然而,这类研究多依赖于预设轨迹的模仿与跟踪,与环境的物理交互仍较为有限。
随着应用场景的拓展,要在家庭陪护、工业装卸、应急救援等任务中替代人类,机器人不可避免地会与环境发生高强度、不可预测的物理交互(比如推、拉、支撑、抗扰等)。能否在这类交互扰动下始终保持全身稳定,精准完成任务,直接决定了人形机器人能否走向实用,也是当前亟待突破的技术瓶颈。
为此,智源研究院联合北京理工大学提出了 BAAI Thor,结合生物力学控制原理与创新的网络结构,让人形机器人在高强度力交互任务中,实现媲美人类的全身协同与动态稳定能力,显著提升其在真实、复杂环境中的作业潜力。
1 人形机器人全身控制的两大挑战
人形机器人要从“表演者”转变为真正的“劳动者”,主要受限于两大技术瓶颈:类人反应机制的缺失与高维协调控制的复杂性。
首先,缺乏有效的类人反应机制显著限制了人形机器人在高强度外力作用下的表现。人类在承受外力时,会本能地通过倾斜躯干、调整重心等方式协同全身,以维持平衡并有效传递力量。相比之下,多数现有控制策略倾向于通过增大关节力矩来抵抗外力。这种刚性对抗策略在面对强大或持续的外部扰动时,往往导致机器人关节输出饱和、姿态不稳,甚至失稳跌倒。此外,许多方法依赖精确的动力学模型或外部力传感器,限制了其在非结构化环境中的自适应交互能力。
其次,人形机器人的全身协调与控制,本质上是一个极其复杂的高维问题:
高维状态空间:机器人的观测空间涵盖数十个自由度的关节角度与速度、IMU 测量值及历史状态,构成数百乃至上千维的状态向量。高维性导致了严重的采样稀疏问题,显著降低了强化学习算法的效率。
高维动作空间:控制策略需在数十维的连续动作空间中进行优化。巨大的搜索空间不仅增加了优化难度,也使得策略极易陷入次优解。
高维动力学耦合:人形机器人是一个各关节间强耦合的非线性动力学系统。强化学习策略必须在复杂的耦合关系中同时优化平衡与动作协调,导致学习的复杂度急剧上升。
因此,要让人形机器人在真实物理世界中胜任高负载、强接触的任务,实现稳定、协调、灵活的全身反应,必须在力交互自适应机制与高维控制策略优化两方面取得突破。
2 从人体生物力学中,探寻人形机器人全身控制的新思路
为了解决上述难题,我们提出了 BAAI Thor: Towards Human-Level WhOle-Body Reactions for Intense Contact-Rich Environments,一套在高强度力交互任务中迈向人类级全身协同与动态稳定的训练框架。
BAAI Thor 框架:将复杂的物理交互问题转化为可通过强化学习求解的、具有明确物理意义的优化目标
受到人体生物力学研究的启发,我们让机器人学习人类在物理对抗中形成的、基于生物力学原理的全身协调策略。具体而言,我们的方法包括两个核心部分:
力自适应躯干倾斜奖励 (FAT2)
该方法的理论基础源于考虑了外部作用力的零力矩点(Zero Moment Point,ZMP)准则。该准则要求,为维持动态平衡,所有作用于机器人(含重力、惯性力及外力)的合力作用点必须落在其支撑多边形内部。在机器人处于静止或低速运动的场景下,我们采用准静态假设(Quasi-static condition),此时 ZMP 准则可简化为力与力矩的静态平衡方程。
如下图所示,当机器人被建模为刚体并承受拉力时,它必须通过自适应地倾斜身体来调整质心位置,以满足上述平衡条件。这一原理正是我们奖励函数设计的核心,旨在引导机器人学习类人的姿态适应策略,以增强末端执行器的有效作用力,从而胜任高强度的力交互任务。
解耦式网络结构,应对高维协调控制难题
为应对人形机器人运动控制中的高维挑战,我们提出了一种新的解耦式网络架构。该架构将全身控制器分解为三个独立的 Actor-Critic 模块,分别对应上半身、腰部与下半身。
所有模块共享统一的全身观测信息作为输入,确保各项决策均基于对整体状态的全面感知。每个模块独立输出其对应身体部位的关节控制指令(期望角度),这些指令最终被拼接成完整的全身动作。在训练中,三个模块同步更新,但各自采用独立的奖励函数计算广义优势估计(GAE),从而实现针对性的策略优化。
这种设计通过降低单一策略网络的优化复杂度,有效缓解了高维动作空间带来的学习瓶颈,更有助于在不同身体部位间学习到一种协同且鲁棒的全身控制策略。
3 实验验证:真实世界中的性能与鲁棒性
我们基于宇树 G1 机器人(重约 35kg)对 Thor 框架进行了实验验证,结果表明其在真实物理交互任务中具备卓越的性能与鲁棒性。
在最具挑战性的实验中,搭载 Thor 框架的 G1 机器人成功拉动了一辆总重约 1400kg 的汽车,直观地展示了该框架在极限负载下实现全身协调与动态平衡的强大能力。
Thor 在一系列模拟真实世界任务中同样表现出色,包括单手开启消防门、拖拽轮式吊架(约 85kg),以及在缺乏精细力控条件下完成擦拭白板等持续接触任务。
单手开启消防门(需约 60N 稳定拉力):Thor 在单臂受力不平衡的情况下,与刚性环境进行接触操作的能力,体现在强接触任务中的力交互与操作性能
拉轮式吊架测试(总重约 85kg):Thor 在拖拽中等质量物体时,上下肢协调配合与动态平衡控制能力,在复杂力交互场景中保持稳定的全身协调
擦白板测试:Thor 在受力不平衡条件下完成精细上肢 contact-rich 任务的能力。由于缺乏外力感知与精细力控,机器人在操作过程中会产生较强接触力和冲击,但 Thor 依然能够成功执行任务。
这些实验充分证明了 Thor 框架在多样的强物理交互场景中的泛化能力与实用价值。
同样,我们也进行了定量性能分析,主要回答以下三个问题:
引入 FAT2(力自适应躯干倾斜奖励函数)会产生什么效果?
与基线方法相比,Thor 取得了多大的性能提升?
在力交互任务中,哪一部分对机器人的性能提升贡献更大?
实验数据显示,机器人的躯干倾斜角度与所受拉力呈正相关,验证了机器人已成功学习到 FAT2 奖励所引导的类人自适应姿态调节策略。
与多种基线方法相比,Thor 在各项力交互任务中均表现出显著优势。例如,在双手向后拉动任务中,Thor 实现了 167.7 N 的峰值拉力(约为机器人自重的 48%),相较于表现最佳的基线算法,性能提升了 68.9%。
消融实验表明,FAT2 奖励函数是提升力交互能力的核心驱动力,贡献了约 80%-90% 的性能增益。而解耦式网络结构则起到了关键的稳定作用,它有效解决了单一策略网络在高负载下因高维耦合导致的运动失调问题,是确保核心能力在极限条件下得以发挥的必要保障。
4 迈向类人级全身反应行为
我们的研究证实,人形机器人能够在高负载、强接触的复杂物理交互中,自主学习并实现高效、鲁棒的全身协调与控制。通过将生物力学原理与强化学习深度融合,BAAI Thor 框架为机器人全身智能控制开辟了全新的路径。
我们将持续开放最新进展,期待与全球科研机构及产业伙伴携手,在工业、服务业、特种作业等更广泛的场景中,共同推动具身智能的演进与落地,让机器人真正走进物理世界,成为人类的可靠伙伴与得力助手。
欢迎访问项目主页了解更多:
论文标题:Thor: Towards Human-Level Whole-Body Reactions for Intense Contact-Rich Environments
项目主页:https://baai-aether.github.io/baai-thor/







评论