写点什么

开发者说|EmbodiedGen:为具身智能打造可交互 3D 世界生成引擎

  • 2025-08-17
    广东
  • 本文字数:2550 字

    阅读完需:约 8 分钟

开发者说|EmbodiedGen:为具身智能打造可交互3D世界生成引擎

概述

具身智能的发展离不开高质量、多样化的可交互 3D 仿真环境。为突破传统构建方式的瓶颈,我们提出了 EmbodiedGen,一个基于生成式 AI 技术的自动化 3D 世界生成引擎,助力低成本、高效率地创建真实且可交互的 3D 场景。用户仅需输入任务定义或场景图像,即可自动化生成多样化、可交互的 3D 世界。EmbodiedGen 代码已开源并上线 Hugging Face 服务,欢迎大家关注使用。


GitHub 代码:


https://github.com/HorizonRobotics/EmbodiedGen


• 技术报告:


https://arxiv.org/abs/2506.10600


• 项目主页:


https://horizonrobotics.github.io/robot_lab/embodied_gen


总体框架

为了解决传统机器人仿真环境因高度依赖人工建模,所导致的高成本、低效率瓶颈,我们提出 EmbodiedGen,面向具身智能的可交互 3D 世界的生成式平台。系统通过多模态 Agent (Scene Designer) 智能解析用户输入的场景图像或任务文本描述,自动化生成符合交互规则与任务流程的结构化布局 (Scene Graph) ,实现高度定制化的场景设计。基于布局蓝图智能调用资产生成模块,高效生成物理合理的多样性 3D 资产:图像生成 3D(从图像生成物理真实的 3D 资产),文本生成 3D(从自然语言生成 3D 资产),活动关节物体生成(从双状态图像生成可活动的 3D 资产),纹理生成编辑(多风格的 3D 纹理生成与编辑),场景生成(多样化 3D 环境背景生成)。最终输出高保真的可交互 3D 世界,为机器人感知-决策-执行闭环提供物理精确的仿真环境。


单图生成物理真实 3D 资产赋能高保真数字孪生


核心能力:


  • 生成的 3D 资产具有业界领先的几何质量,真实物理属性、水密性与简化网格,可无缝导入多种仿真器中使用;

  • 自动标注语义与质检标签,包括资产描述、纹理美学打分、前景提取质量检验与几何质量校验等;

  • 消除纹理高光,结合法线信息多视角融合,输出 2K 分辨率纹理,细节更精致。

自然语言生成 3D 资产资产库规模化低成本构建


核心能力:


  • 支持通过自然语言描述(中 &英)生成具备语义一致性、物理真实性的 3D 资产;

  • 通过 Agent 系统智能拆解复杂生成需求(如“生成 100 种风格的杯子”)为不同的风格与形状描述,并通过质检标签自动筛选出视觉效果美观并且物理几何合理 3D 物体资产。

活动关节物体生成双状态图像构建可活动 3D 资产


核心能力:


  • 支持橱柜、抽屉等常见活动关节物体的生成,捕捉几何结构的同时建模部件之间的连接关系与运动行为;

  • 采用扩散模型实现高质量的可控生成,通过双状态消除运动歧义,准确建模物体的关节关系;

  • 输出的 3D 物体资产具备物理合理性,适用于交互式仿真环境中的操作与交互,详见我们发表的另一篇工作 DIPO。

纹理生成与编辑 3D 资产视觉风格化增广


核心能力:


  • 支持以 3D 网格和文本描述为输入,生成语义一致、几何视角一致的高质量 2K 分辨率纹理;

  • 采用可插拔的可学习模块,将社区文生图基础模型能力迁移到 3D 纹理生成,最小化再训练成本;

  • 输出资产纹理清晰、风格丰富,具备真实感与艺术表现力,支持 3D 文字纹理生成。


多样性场景生成几何一致的背景 3D 资产


核心能力:


  • 自然语言或图像输入,生成语义一致、结构合理、尺度真实的 3D 场景资产;

  • 良好的可扩展性,主要包括全景图像生成、3D 场景生成 &迭代补全与尺度坐标对齐三个模块;

  • 输出场景包含 3D 网格与 3DGS 两种表达,可作为机器人仿真中的背景资产。

任务驱动的布局生成构建可交互 3D 世界蓝图




核心能力:


  • 支持输入自然语言任务描述(如"Franka robotic arm picks shoes")或图片,一键生成语义合理、结构完整的 3D 可交互世界;

  • 采用多叉树结构表达 3D 世界布局蓝图,节点为 3D 资产描述,边表示父子从属关系与空间布局关系;

  • 利用 LLM 实现低代码布局搭建,结合物理引擎求解稳态位姿,确保物理可行与交互合理。

具身智能应用

EmbodiedGen 以生成式 AI 重构 3D 世界构建范式,低成本生成几何精确、渲染真实的仿真资产(网格+3DGS 混合表示),可快速导入仿真引擎,支撑机器人感知-决策-执行全流程闭环,赋能仿真数据生成与算法闭环评测等核心应用,包括以下具体示例:



通过 EmbodiedGen 构建物理精确数字孪生,在 MuJoCo 仿真环境中进行动态交互仿真。



通过 EmbodiedGen 生成待评测 3D 资产,并在 Isaac 中对操作模型性能进行仿真评测。



通过 EmbodiedGen 编辑物体纹理,生成多样性场景,对 RoboTwin 搭建的操作任务进行数据资产增广。



通过 EmbodiedGen 生成 3D 物体资产,用于 OpenAI Gym 中的导航及避障任务仿真。

总结与展望

EmbodiedGen 通过整合图像、文本等多模态输入,打通从单体资产生成到物理真实的可交互式 3D 世界构建的全流程。模块化设计与生成式 AI 的深度融合,提高具身智能数据获取效率与仿真环境多样性。未来,EmbodiedGen 将作为开放平台持续演进,助力通用智能体的开发与评测,推动具身智能从研究走向应用落地。

致谢

EmbodiedGen 涉及以下出色的开源模型和项目:


[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.


[2] Tencent Hunyuan3D Team. Hunyuan3D‑Delight‑v2.0 Model Card, 2025.


[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.


[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.


[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.


[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.


[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.


[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.


[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.


[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.


[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.


[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.


[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.


用户头像

还未添加个人签名 2021-03-11 加入

还未添加个人简介

评论

发布
暂无评论
开发者说|EmbodiedGen:为具身智能打造可交互3D世界生成引擎_自动驾驶_地平线开发者_InfoQ写作社区