具身智能评估新思路: 智源基于 2025 世界人形机器人运动会足球赛的初步探索

“结果之外”:具身智能评估的时代挑战
在 2025 世界人形机器人运动会(WHRG)上,众多团队展现了具身智能算法与机器人本体深度融合的最新成果,机器人本体的自由度、稳定性和控制能力明显提升,具身智能算法赋予感知、推理、规划和决策能力助其在动态环境中能够挑战更复杂的任务。正因人形机器人已发展为涵盖本体与智能模型的复杂系统,如何科学系统地评估其综合能力,已成为当前行业发展的关键瓶颈。传统的结果导向评价,如简单的输赢或任务完成情况,已难以充分反映具身智能在支撑机器人本体处于复杂、动态和强对抗环境下的性能表现。以足球比赛为例,其中涌现的各种现象往往是多种能力综合作用的结果,直接归因存在较大困难,因此亟需一套结构化的评估框架,能够系统性地拆解和分析这些复杂比赛现象,从而更清晰、更可靠地推断出机器人综合能力的优势与技术短板。
在本届运动会上,智源评测 FlagEval 下的具身智能评测平台 EmbodiedVerse 承担了足球赛计分与数据分析系统的设计与实施工作。我们首次在大型机器人赛事中引入系统化的过程性数据分析,并对 48 场比赛的全量数据进行采集与分析,重点关注对抗环境下机器人的稳定性与协作情况,希望可以初步探索挖掘机器人性能的核心指标与潜在短板的方法,分析具身智能模型和算法的优劣,为行业提供可操作的技术洞察与方法参考。

具身足球赛的测评新思路
机器人足球:具身智能的终极考场
要科学评估复杂的具身智能,需要一个能够全面映射其能力的“终极考场”。机器人足球赛,一个全自主、群体合作的竞技场景,恰恰提供了这样一个理想场景。
首先,它构建了一个高度动态、充满对抗和不可预测的环境,使得机器人必须在不确定性中保持感知与反应的稳定性。
其次,足球赛要求机器人在较短的时间内完成感知、定位、追球、射门、躲避与协作等多任务操作,这对其决策机制与算法适应性提出了极高要求。
再次,足球不仅检验单体机器人的鲁棒性与执行稳定性,还在群体层面上考察多智能体之间的协作与竞争策略,实现从个体到整体的能力验证。
基于此,选择机器人足球赛作为研究与评估的切入点,超越单纯的胜负结果,将比赛过程中的关键行为转化为系统化的评价维度,有助于揭示当前具身智能技术的优势与不足,为发展指明更具实践意义的方向。

图 1 裁判员在使用 FlagEval 记分平台
指标重构:从结果导向到过程性量化
与传统体育赛事不同,机器人足球赛的参与主体是机器人,为了达到通过过程性指标揭示具身智能技术优势与不足的目的,在设计指标时既要紧贴机器人的技术特征及能力现状,也要考虑指标采集的可操作性,还要符合足球比赛的裁判标准。基于上述逻辑,最终确立的过程性指标包括射正次数、门球次数、角球次数、射正率以及搬离次数/搬离率。
表 1 过程性指标定义

“搬离次数/率”可以衡量机器人在对抗环境中的鲁棒性与稳定性,这是人类体育竞赛中不存在但在机器人比赛中极具意义的技术维度。射正次数/率、门球次数和角球次数,不仅体现群体协作策略是否有效,还能揭示机器人在感知、定位、路径规划、决策和执行等环节中的整体协同性。

图 2 机器人运动员在发角球
数据驱动的技术洞察:WHRG 足球赛全景解码
核心发现:感知偏差、风格差异与对抗模式
洞见一:感知泛化性仍需加强
在比赛中,机器人多次放弃对球的追逐,转而冲向场边的白色桌子或白色广告牌。
这种现象并非“执行”环节的失败,而是“感知”环节的错误,暴露了机器人视觉模型在泛化能力上的严重不足。模型在训练中可能对特定“目标”特征产生过拟合,导致在面对现实赛场中从未见过但具有相似底层特征的干扰物时发生混淆。
这揭示了当前感知技术在从受控训练环境迁移到复杂、充满噪声的真实物理世界时的脆弱性——机器人虽然“看得到”,却未能“看懂”,缺乏常识性的场景理解能力,无法在任务上下文中区分场地白线与白色球鞋的本质差异。
这说明了当前模型在感知泛化方面的核心短板。未来技术的发展方向应重点关注高质量、多样化的数据采集与增强,以覆盖极端情况和强干扰物;探索更具泛化能力的模型架构,以支持因果推理和场景上下文理解;以及通过引入对抗性样本系统性地提升模型应对未知干扰的能力。
洞见二:中外队伍竞技风格迥异
在这 48 场比赛中,共有 16 支队伍参加,中外队伍各占一半。通过数据分析对比发现(表 2),外国队伍在射正、门球指标上较高,整体呈现出更具进攻性的风格,更倾向于进行高频次射门尝试。这种比赛策略虽带来更多进攻威胁,但也导致对抗中的摔倒和搬离更频繁(外国队伍的场均搬离率超过 200%,说明平均每场每台机器人被搬离场至少 2 次)。中国队伍则在角球上表现更为突出,显示其在边路推进和局部配合方面具有明显优势。竞技风格体现的比赛策略上的差异与模型训练的倾向强相关,反映了中外团队在训练策略与优化方向上的不同。
表 2 中国队伍 与 外国队伍 各指标的场均值及标准偏差

标准差数据显示中国队伍之间的各项差异比外国队伍之间的差异更小,且外国队伍之间除角球以外的各项指标都有明显差异。或许说明中国队伍的训练策略和方法较为趋同,而外国队伍采用了更多样化的训练策略和训练方法。
洞见三:不同赛制的行为特征不同
从比赛数据看(表 3),不同赛制中的机器人呈现出不同的行为特征,这或许由场地大小和球员数量共同决定。
相较于 5v5 比赛,3v3 比赛的场地更小,使得 3v3 中进攻方往往能在更短时间内形成配合:通过短距离传球,创造快速射门机会。在数据上体现为 3v3 比赛的射正次数/率均略高于 5v5(5.38 次/场 VS 4.69 次/场)。
5v5 比赛中,虽场地变大,但对抗主体更多,相互之间的碰撞与摔倒更为频繁,被搬离场外的情况明显更多,场均搬离次数高达 23.88。同时,因距离的增加,带来力量控制和角度控制难度提升,使得进攻中更容易将球打出底线。在数据上体现为 5v5 比赛的门球与角球平均值均高于 3v3。
表 3 3v3 与 5v5 足球赛各指标场均值

总体而言,3v3 比赛呈现出了的更高进攻效率与更清晰的策略信号(射正率 65%);5v5 比赛对抗性高、目标定位与容错问题凸显(射正率约 44%,搬离与定位球显著增加),说明在群体协作策略与鲁棒控制等方面的仍有较大优化空间。
能力画像:多维对抗下的成熟度评估
当前优势
在复杂、动态、强对抗的赛场环境下,机器人已能够自主完成“感知—决策—运动控制—多机协作—实时通信”的端到端闭环。所有算法能够持续稳定运行,视觉识别、路径规划、多机器人协作、实时通讯等技术在赛场中得到了充分验证和展现,在角色分配、多机协作与信息共享等维度上也表现出了较好的泛化性和鲁棒性。
关键短板
依然存在环境适应性不足、感知的精度与泛化性有限,复杂对抗下的智能决策不够灵活等问题,仍有较大进步空间。机器人冲向白色桌子或白色鞋子就是典型的感知问题导致的错误行为。多台机器人对抗的复杂环境下的智能决策还不够灵活,所以机器人“叠罗汉”的场景频发。
未来优化建议
整体来看,机器人技术已进入可在实战场景中展示闭环能力的阶段,但要真正达到类人水平,但仍需从多个维度持续突破。一方面,在算法上可进一步引入对抗性训练和多样化数据扩展,以增强系统在复杂场景下的鲁棒性与泛化能力;另一方面,多智能体的分布式协作机制需要优化,从而在高密度对抗环境中实现更高效的角色分工与动态决策。此外,在硬件层面提升抗干扰能力与执行稳定性,也将是缩小与人类在响应速度与动作流畅度方面差距的关键路径。
探索具身智能评测的未来方向
从赛场到实验室,从竞技到科研,数据既是推动机器人竞技进步的核心力量也是理解技术进步的钥匙。2025 世界人形机器人运动会的足球赛表明,科学化的数据分析不仅能揭示战术规律和硬件短板,更能帮助研究者构建更强大的智能协作算法。
未来,智源评测 FlagEval 将持续完善评测体系,不断扩充技术储备及创新工具,为构建更高级的具身智能评测平台奠定基础。当机器人在赛场上 PK,当数据成为理解技术进步的钥匙,我们正迎来一个智慧竞技的新时代。
版权声明: 本文为 InfoQ 作者【智源研究院】的原创文章。
原文链接:【http://xie.infoq.cn/article/bdad7cf3dbba52f8ccec839d0】。文章转载请联系作者。
评论