Genie 3:世界模型的新前沿 - 实时交互环境生成技术突破
Genie 3:世界模型的新前沿
发布日期:2025 年 8 月 5 日
作者:Jack Parker-Holder 和 Shlomi Fruchter
今天我们宣布推出 Genie 3,这是一个通用世界模型,能够生成前所未有的多样化交互环境。根据文本提示,Genie 3 可以生成动态世界,用户可以以每秒 24 帧的速度实时导航,在 720p 分辨率下保持数分钟的一致性。
迈向世界模拟
在 Google DeepMind,我们十多年来一直致力于模拟环境的研究,从训练智能体掌握实时策略游戏,到为开放式学习和机器人技术开发模拟环境。这项工作推动了我们对世界模型的开发,这些人工智能系统可以利用对世界的理解来模拟其各个方面,使智能体能够预测环境如何演变以及它们的行动将如何影响环境。
世界模型也是通往 AGI(人工通用智能)的关键垫脚石,因为它们可以在丰富的模拟环境的无限课程中训练 AI 智能体。去年,我们通过 Genie 1 和 Genie 2 引入了第一个基础世界模型,它们可以为智能体生成新环境。我们还通过 Veo 2 和 Veo 3 模型继续推动视频生成的技术水平,这些模型表现出对直观物理的深刻理解。
这些模型中的每一个都在世界模拟的不同能力方面取得了进展。Genie 3 是我们的第一个允许实时交互的世界模型,同时与 Genie 2 相比,还提高了一致性和真实感。
能力
Genie 3 的能力包括:
模拟世界的物理特性
体验自然现象如水和光照,以及复杂的环境交互。
模拟自然世界
生成从动物行为到复杂植物生命的充满活力的生态系统。
模拟动画和虚构
挖掘想象力,创造奇幻场景和富有表现力的动画角色。
探索地点和历史背景
超越地理和时间界限,探索地方和过去时代。
推动实时能力的前沿
在 Genie 3 中实现高度可控性和实时交互性需要重大的技术突破。在每一帧的自回归生成过程中,模型必须考虑随时间增长的先前生成的轨迹。例如,如果用户在一分钟后重新访问某个位置,模型必须参考一分钟前的相关信息。为了实现实时交互,这种计算必须每秒多次进行,以响应用户的新输入。
长视野下的环境一致性
为了使 AI 生成的世界具有沉浸感,它们必须在长视野下保持物理一致性。然而,自回归生成环境通常比生成整个视频更困难,因为不准确性会随时间累积。尽管面临挑战,Genie 3 环境在数分钟内基本保持一致,视觉记忆可追溯至一分钟前。
可提示的世界事件
除了导航输入,Genie 3 还支持更具表现力的基于文本的交互,我们称之为可提示的世界事件。可提示的世界事件可以改变生成的世界,如改变天气条件或引入新对象和角色,增强导航控制的体验。这种能力还增加了反事实或"如果"场景的广度,可用于从经验中学习的智能体处理意外情况。
推动具身智能体研究
为了测试 Genie 3 创建的世界对未来智能体训练的兼容性,我们为最新版本的 SIMA 智能体(我们在 3D 虚拟环境中的通用智能体)生成了世界。在每个世界中,我们指示智能体追求一组不同的目标,它通过向 Genie 3 发送导航行动来实现这些目标。与任何其他环境一样,Genie 3 不知道智能体的目标,而是根据智能体的行动模拟未来。
由于 Genie 3 能够保持一致性,现在可以执行更长的行动序列,实现更复杂的目标。我们预计这项技术将在我们推动 AGI 的过程中发挥关键作用,智能体在世界上扮演更重要的角色。
局限性
虽然 Genie 3 突破了世界模型的能力边界,但必须承认其当前的局限性:
有限的动作空间:尽管可提示的世界事件允许广泛的环境干预,但它们不一定由智能体本身执行。智能体可以直接执行的动作范围目前受限。
其他智能体的交互和模拟:准确建模共享环境中多个独立智能体之间的复杂交互仍然是一个持续的研究挑战。
真实世界位置的准确表示:Genie 3 目前无法以完美地理精度模拟真实世界位置。
文本渲染:清晰易读的文本通常只有在输入世界描述中提供时才能生成。
有限的交互持续时间:模型目前支持几分钟的连续交互,而不是延长的小时数。
责任
我们相信基础技术需要从一开始就深刻承诺责任。Genie 3 的技术创新,特别是其开放端和实时能力,引入了安全和责任的新挑战。为了解决这些独特风险,同时旨在最大化利益,我们与负责任开发与创新团队密切合作。
在 Google DeepMind,我们致力于以放大人类创造力的方式开发我们一流的模型,同时限制意外影响。在我们继续探索 Genie 的潜在应用时,我们宣布 Genie 3 作为有限的研究预览,向一小部分学者和创作者提供早期访问。这种方法使我们能够收集关键反馈和跨学科观点,探索这一新前沿,并继续建立对风险及其适当缓解措施的理解。我们期待与社区进一步合作,以负责任的方式开发这项技术。
下一步
我们相信 Genie 3 是世界模型的重要时刻,它们将开始对 AI 研究和生成媒体的许多领域产生影响。为此,我们正在探索如何将来向更多测试者提供 Genie 3。
Genie 3 可以为教育和培训创造新机会,帮助学生学习和专家获得经验。它不仅可以为像机器人和自主系统这样的智能体提供广阔的培训空间,还可以使评估智能体性能和探索其弱点成为可能。
在每一步,我们都在探索我们工作的影响,并为其安全、负责任地造福人类而开发。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

评论