什么是世界模型 World Models | AI 大咖说

2024-12-27
福建
本文字数：2807 字
阅读完需：约 9 分钟

1.世界模型的定义

世界模型（World Models）的灵感源于人类自然形成的世界心智模型。人类通过感官获取抽象信息，在大脑中转化为对周围世界的具象理解，这种理解模型早在人类研究 AI 之前就已存在。基于这些模型，大脑能够对世界进行预测，进而影响人们的感知和行动。例如，AI 研究人员大卫·哈（David Ha）和尤尔根·施米德胡伯（Jürgen Schmidhuber）以棒球击球手为例，击球手在只有几毫秒决定如何挥棒（比视觉信号传递到大脑的时间还短）的情况下，能击中时速 160 公里的快速球，就是因为他们能本能地预测球的位置，这是基于内在心智模型的潜意识推理能力。这种世界心智模型的潜意识推理能力，被一些科技研究者认为是实现人类级别智能的前提。

在人工智能领域，世界模型是一种旨在创建对世界运作方式内部表征的概念。为了实现这种洞察力，世界模型需要在大量的照片、音频、视频和文本数据上进行训练，具备推理行动后果的能力。例如，具有基本物理认知的世界模型相比传统生成式模型，更善于展现“篮球的真实弹跳”。传统生成式模型可能仅能预测篮球会弹跳，但不理解其中原因，**而世界模型则能通过对世界运作方式的理解来呈现更真实的结果。**像 OpenAI 在一篇博客中认为 Sora 是一个世界模型，它可以模拟画家在画布上留下画笔笔触等动作，也可以有效地模拟视频游戏，如渲染类似 Minecraft 的 UI 和游戏世界。

然而，目前的世界模型也面临一些挑战。与目前用于生成式模型的计算量相比，训练和运行世界模型需要庞大的算力，并且世界模型也存在幻觉问题，同时还会内化训练数据中的偏见。

2.常见的世界模型

目前常见的世界模型多处于人工智能领域的研究探索中：

Sora

OpenAI 的 Sora 被认为是一种世界模型，它能够模拟画家在画布上留下画笔笔触等动作，还可以有效地模拟视频游戏，例如渲染类似 Minecraft 的 UI 和游戏世界。它是作为世界模拟的视频生成模型出现的，但南京大学人工智能学院教授俞扬认为 Sora 更多是视频工具，难以作为反事实推理的工具准确回答“what if”问题，不过它仍然在一定程度上展示了世界模型的部分特征，如对世界中某些动作和场景的模拟能力。模型

based RL（强化学习中的基于模型的强化学习模型）

在强化学习领域，model - based RL 中的模型也被看作是世界模型。在基于世界模型的强化学习方法中，智能体首先学习一个关于环境的内嵌的模型，在内嵌的模型中学习行为决策，从而提高在真实环境中的表现。例如，Jurgen2018 年的文章中对相关概念有所涉及，其中提到很多 model - based RL 虽然学了模型，但过去存在没有完全在模型中训练 RL 的情况，不过随着技术发展这一问题在近几年得到解决。这种世界模型主要包含状态表征和转移模型，对应着 mental representations 和 mental simulation 两部分，能够进行反事实推理，即便是对于数据中没有见过的决策，在该模型中也能推理出决策的结果。

3.meta 首席科学家杨立昆对世界模型的理解

杨立昆认为真正的智能突破需要 AI 学习常识和世界模型，世界模型更接近真正的智能，而非只学习数据的统计特征。他强调常识对于实现真正智能的重要性，当前的生成式 AI 能力有限，无法涵盖常识和世界模型。

以人类的学习过程为例，孩童在成长过程中，更多是通过观察、交互和实践来认知这个世界，而非被单纯“注入”知识。他的“世界模型”路线，则是试图通过对视频、音频等媒体的模拟与补全，让 AI 也经历这样一个自主学习的过程，从而形成“常识”，最终实现 AGI（通用人工智能）。

他指出像卷积神经网络 CNN 虽然在图像识别方面取得巨大成功，但存在欠缺智能理解力的问题，例如被识别的图片仅改变一处细微细节，识别效果就会天差地别，CNN 所学到的能力没有一项是通用的，也没有一项可以被迁移到任何其他任务上，这体现出现有技术与世界模型所追求的真正智能的差距。

虽然世界模型并没有一个标准的定义，但可以通过一些例子简单理解。例如一个第一次开车的成年人在过弯道的时候会自然地“知道”提前减速；儿童只需要学会一小部分（母语）语言，就掌握了几乎这门语言的全部；动物不会物理学，但会下意识地躲避高处滚落的石块。世界模型的研究就是让 AI 学习这种能力

4.李飞飞 World Labs 空间智能:一张图模拟 3D 物理世界

李飞飞 World Labs 空间智能最新模型概述李飞飞联合创立的 AI 初创公司 WorldLabs 最近发布了他们的首个空间智能模型，该模型能够仅凭一张图片生成一个逼真的 3D 世界。这个模型的发布标志着空间智能领域的一个重要进展，它不仅能够估算出 3D 几何图形，还能填充场景中未见的部分，创建新的内容，实现各个方位的 3D 世界构建。

用户可以在浏览器中与生成的 3D 场景进行实时交互，包括模拟相机对焦和滑动变焦，以及通过键盘和鼠标在场景中移动和转换视角。这种交互性使得用户体验更加沉浸，仿佛置身于一个开放世界游戏中。生成的 3D 场景具有持久性，即使用户暂时离开，场景也会保持不变。此外，用户可以在场景中自由、实时移动，观察细节或探索未知区域。这种实时控制能力为用户提供了更多的探索自由。模型生成的 3D 场景遵循 3D 几何的基本物理规律，具有立体感和纵深感，这使得生成的世界更加真实和可信。

WorldLabs 团队利用这个模型探索了著名艺术家的作品，如梵高、霍珀、修拉和康丁斯基的画作，生成了相应的 3D 世界。这不仅是一种全新的艺术体验方式，也是对经典艺术作品的一种数字化再现。该模型可以与其他 AI 工具结合使用，例如先使用文本到图像模型生成图像，然后再从文本创建世界。这种工作流程的结合可以极大地加速内容创作过程。

5. 世界模型面临的挑战

世界模型的核心挑战之一是其在模拟环境动态及因果关系方面的能力，以及进行反事实推理的能力。反事实推理要求模型能够模拟如果环境中的某些因素发生变化，结果会如何不同。这对于决策支持和复杂系统模拟至关重要。例如，在自动驾驶中，模型需要能够预测如果某个交通参与者的行为发生变化，车辆的行驶路径会受到怎样的影响。然而，当前的世界模型在这一领域的能力有限，未来的研究需要探索如何让世界模型不仅仅反映现实状态，还能根据假设的变化做出合理的推断。

物理规则的模拟能力是世界模型面临的一大挑战，尤其是如何让模型更加精确地模拟现实世界中的物理规律。尽管现有的视频生成模型如 Sora 可以模拟一定程度的物理现象（如物体运动、光反射等），但在一些复杂的物理现象（如流体动力学、空气动力学等）中，模型的准确性和一致性仍然不足。为了克服这一挑战，未来的研究需要在模拟物理规律时，考虑更精确的物理引擎与计算模型，确保生成的场景能够更好地遵循真实世界中的物理定律。

泛化能力是评估世界模型性能的关键之一，其强调的不仅是数据内插，更重要的是数据外推。例如，在自动驾驶中，真实的交通事故或异常的驾驶行为是罕见的事件。那么，学习得到的世界模型能否想象这些罕见的驾驶事件呢？这要求模型不仅要超越简单地记忆训练数据，而且要发展出对驾驶原理的深刻理解。通过从已知数据进行外推，并模拟各种潜在情况，世界模型可以更好地在现实世界中进

你觉得世界模型应该是什么样子？

发布于: 刚刚阅读数: 4

原文链接:【http://xie.infoq.cn/article/c06b262cae62108b8d7e97f65】。文章转载请联系作者。

AIWeker

关注

InfoQ签约作者 / 公众号：人工智能微客 2019-11-21 加入

人工智能微客（aiweker）长期跟踪和分享人工智能前沿技术、应用、领域知识，不定期的发布相关产品和应用，欢迎关注和转发

发布

暂无评论

创作场景