写点什么

基于 WebGPU 的 AI 原生 3D 引擎迎来新机遇!Orillusion 在 GOTC 上演讲!

作者:Orillusion
  • 2023-05-30
    北京
  • 本文字数:3738 字

    阅读完需:约 12 分钟

基于WebGPU的AI原生3D引擎迎来新机遇!Orillusion在GOTC上演讲!


全球开源技术峰会(Global Open-source Technology Conference) GOTC 2023 由开放原子开源基金会、 Linux 基金会亚太区、上海浦东软件园和开源中国联合发起, 于 5 月 27 日至 28 日在上海顺利举行。


GOTC 是面向全球开发者的一场盛大开源技术盛宴,大会以行业展览、主题发言、专题论坛、开源市集的形式展现,与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及开源社区、AIGC、汽车软件、AI 编程、开源教育培训、云原生等热门话题,探讨开源未来,助力开源发展。

北京鸥睿零世科技有限公司创始人 &CEO 白景文受邀出席 Web3 元宇宙世界专题论坛,发表了题为《元宇宙时代 Web3D 的生态优势及 WebGPU 引擎的机遇》的演讲,并参与了《游戏与 3D 渲染引擎》圆桌讨论。

圆桌会议

一、AIGC 在 3D 行业的突破

随着 ChatGPT 的出现,LLM 的多模态能力已经在文字和图片的生成上表现出了非常好的效果。下一个被 LLM 覆盖的场景,必然是 3D 内容的生成。AIGC 在 3D 行业的突破,我们理解为两种表现形式:生成派和调用派。

生成派:资产的生成

比如 ChatGPT,Jasper,Imagen,Dall·E 2,Stable Diffusion,Midjourney 等,都是在文字或图片的场景里,从 0 到 1 的直接创造内容。对于 3D 资产,通过 AI 最终也一定可以实现从 0 到 1 的直接创造。从当前 3D 内容生产工作流兼容性的角度,考虑到 3D 资产需要应用到渲染管线,3D 资产最流行的 representation 就是 Mesh,除此之外还包括 NeRF,体素,点云,SDF 等。当下,可以基于 3D 数据集直接训练 AI 模型,实现 3D Mesh 资产的创作,也可以基于 2D 图片信息,来生成各种 representation 的 3D 资产。虽然目前来看,3D 资产的生成还是处于相对早期的阶段。但是,这些不同的 representation 最终都会通过 AI,实现从 0 到 1 的直接生成创造。

调用派:资产的产品化

在 3D 应用场景中,LLM 是否可以学习各种 DCC 软件(通过教程、案例、代码等),通过“调用”的方式,完成 3D 内容的创作。比如我们是不是未来可以教会 LLM 使用 Unity 引擎工具,通过 prompt,就可以直接生成我们需要的 3D 应用。LLM 本身更擅长的是对文字内容的理解,而复杂繁琐的专业性工作,有很多成熟的工具可以完成。这好比我们的大脑只需要完成思考,再通过控制我们的手脚来完成工作一样。这种调用派的逻辑更像是 ChatGPT 当下的插件机制,如果想购买机票,只需要告诉 ChatGPT 我们的意图,然后通过插件调用成熟的机票购买服务就好了。


生成派解决的是资产创造的问题,但是 3D 资产创造完,需要有去处,有场景。调用派解决的资产转换为 3D 资产,产品化的问题。

二、带有 AI 大脑的 3D 引擎必然出现

功能级:AI 能力独立调用

⾕歌在 5 月 10 号召开的 I/O⼤会,展示了 AI 和安卓系统的结合能力:生成式 AI 的壁纸应用和智能短信助手 Magic Compose。这些 AI 能力的应用还都是属于一个个独立功能的存在,不是系统级的接入。


这种结合 AI 的形式和运用 3D 游戏引擎的 AI 能力开发游戏类似。当下,我们开发游戏也用到了很多 AI 能力:传统 AI 能力应用包括语音生成,语音生成面部表情,AI 视频动捕等等;大模型 AI 能力应用包括生成原画素材,游戏剧本,智能 NPC 等等。我们认为这种 AIGC 的应用的确可以大大加速 3D 内容的生成效率,但是都不是系统级别的。

系统级:3D 内容工具的范式转变

微软在 5 月 23 号召开 Build 开发者大会,推出了 Windows Copilot,这对微软有重大战略意义。它的本质是给 windows 安装了一个大脑,而且它可以慢慢进化的。虽然现在能做的事情有限,但是这可能是新⼀代 AI 操作系统的雏形,通过自然语言的方式,完成人和操作系统(机器)的交流。


在这个 AIGC 的时代,我们需要给 3D 引擎装上一个大脑,大语言模型,必须系统级的理解 3D 引擎,这将是 3D 内容创作工具的范式转变。


充分发挥 AI 的先发优势,需要像微软一样从战略上重视。半年来,我们对 AI 大语言模型了解的还非常浅显,战略上愈加重视,才能理解的更为深刻,才有可能制定出更加领先且正确的战术计划。

3D 应用的开发必须有 3D 引擎的支持,是非常不容易被大模型替代的。在这个相对的垂直场景,一定会出现一个带有 AI 大脑的 3D 引擎,为 3D 创作提供系统级的 AIGC 能力。

专题演讲

三、WebGPU 和 AIGC 对 3D 引擎的影响

简单回顾游戏引擎 30 多年的发展史,每个时代都会有不同的 3D 内容需求,不同的需求又会催生出不同的引擎公司,进而站上历史舞台。


第一款游戏引擎,是由 ID Software 在 1993 年发布的《德军总部 3D》,创始人 John Carmack 也被称为“FPS 游戏之⽗”。同年,经过优化后,ID 发布了《DOOM》,最终成为了游戏引擎技术的代表。但是,这两款引擎都是伪 3D。真正的 3D 引擎是 ID 在 1996 年发布的《Quake》,它开始⽀持模型,动画和粒子特效。1997 年的《Quake2》,开始⽀持 OpenGL。


1998 年,Epic 公司的 Unreal 诞生。当时游戏的开发已经变的相对复杂,需要很多功能模块。Unreal 当时最主要的特征是集成了游戏开发的很多模块,包括物理、⾳效、碰撞等。所以,从游戏引擎通用性角度,Unreal 要好很多。但是这还不够,Unreal 真正能⽐肩 Quake,是经过几轮的代码重构和迭代后,发布的 Unreal3。这个过程中,Epic 公司做的最成功的决定就是全力拥抱微软的生态,努力适配 Widows 的图形 API 接口 DX。最终在 Xbox 上发布了《战争机器》,也奠定了它在 PC 主机这个时代的引擎霸主的地位。这个时代对 3D 内容的需求,就是渲染逼真,效果好。


2004 年,伴随着让游戏引擎大众化的口号,Unity 成⽴。Unity 成功的很大原因是借助于移动互联⽹的浪潮,尤其是 2007 年 iPhone 发布的时候,当时只有 Unity 一款引擎可以为 IOS 开发游戏应用。最终 Unity 凭借它的跨平台特性,很快的成为了移动互联网时代的主流引擎⼯具。这个时代对 3D 内容的需求,就是人们可以通过移动⼿机,随时随地的快速进⼊3D 世界。


随后,各家游戏引擎开始普遍的去游戏化标签。比如,Unity 的口号从“game development platform”变成了“real-time 3D content platform”,Unreal 也开始深⼊到各个⾏业,包括影视,⼯业,仿真,⾃动驾驶等等。随着覆盖场景的增多,协作的需求也多了起来。所以英伟达推出的 Omniverse,横向打通了各种 3D 内容制作工具,让不同的角色可以快速协作,进而提升工作效率。

在这个发展的过程中,出现过 3D 内容轻量化的阶段。曾经的 Flash 被抛弃后,很多优势都被 WebGL 所借鉴,也出现过非常火爆的页游。但是,从商业角度,并没有出现特别成功的引擎公司。


我们也尝试做过分析,首先 Web 技术不只是可以用来做网页,一样可以打包发布成移动端和桌面端的应用,甚至是未来的 VR/AR/MR 的应用。其次,Web 在 2D 内容有《羊了个羊》,在工具层面上有 Figma。3D 场景上没有特别成功的案例,一个很有可能的原因就是 Web 上的 3D 天花板 WebGL 的性能问题。这导致在 Web 上很难开发出高质量,高性能,高留存的 3D 应用。


但是,这样⼀种局⾯,很有可能随着 WebGPU 的出现被彻底打破。2023 年 5⽉2 号 WebGPU 正式发布,它本质上是释放了 GPU 的⽣产⼒,在浏览器上可以进⾏⾼性能的计算和渲染。


WebGPU 增加了计算着色器,可以把 GPU 的通用计算能力独立出来,不再需要通过 fragment shader 和 vertext shader 进⾏模拟;同时 WebGPU 取消了全局状态机,把内存管理交给技术人员,大大提高了灵活度,可以针对不同的需求进行自由调整。这两个技术上的变化,也表现在两个⽐较实际的场景上。第一个场景是,浏览器通过 WebGPU 可以直接运行大模型,比如 Stable Diffusion。第⼆个场景式, 浏览器中可以更加轻松的实现桌⾯级的渲染效果算法,实现更加逼真的 3D 内容呈现。


浏览器的全球安装量是非常巨大的,Chrome 一家在全球就有 30 亿用户。WebGPU 带来的技术和场景的变化,意味着几十亿人,可以⼏乎 0 成本的获得超强的计算和渲染能⼒。再配合上浏览器天然的跨平台,易传播的属性,便可以轻松的让⽤户体验到各种 AI 能力和高质量 3D 内容。


大模型的训练是需要巨大算力支持的,因此我们在当下体验 AI 服务的时候,经常因为云端资源的限制而被“卡”住。有了 WebGPU 的技术,它可以轻松的释放端侧的算力,未来 AIGC 服务表现为“训练在云测,推理在端测”的模式很有可能成为新的趋势。


以 ChatGPT 为代表的⼤语⾔模型,已经改变了人们的习惯和认知。当下,是一个 AIGC 普众化需求爆发的时代,更多的⼈都渴望更方便快捷的获得 AI 的能⼒,获得 AIGC 的 3D 创作能⼒。 我们认为不久的将来,⼀定会出现⼀个轻量级的、易传播的,系统级集成 AI 能⼒的 AI 原⽣3D 引擎。


欢迎大家加入开发者社区交流群(tips:已在 123 群的就不要重复加入哦,所有的信息每个群都会同步滴!)


如果出现扫码进群已达到上限,请加大添加小鸥微信(图右),我们会邀请您进群~



欢迎大家关注我们官号,加入 Orillusion 开发者社群,陪我们一起见证 WebGPU 的发展。快来成为 Orillusion 社区第一批“源”住民吧!让一起打造有价值、有活力、有温度的共创社区!


Orillusion 致力于打造全世界第一款完全开源基于 WebGPU 标准的一种轻量级渲染引擎,目标是在浏览器中实现桌面级的渲染效果,支持超大复杂场景的 3D 呈现。易上手,易分享,易迭代,易协作、成本低,跨平台是我们的核心优势,我们将为 3D 场景爆发时代提供引擎基础工具。

未来我们将会持续把最干货最前沿的 WebGPU 技术分享给每一位社区成员,也欢迎大家为 Orillusion 开源社区做出自己的贡献。我们一直坚信,开源社区的技术留痕是每一位技术人员最崇高的追求!因此,我们尊重,我们认可,我们更期待,加入 Orillusion,让我们共同进步!


——Link uncharted, 链接未来世界

发布于: 刚刚阅读数: 5
用户头像

Orillusion

关注

打造完全开源WebGPU轻量级渲染引擎~ 2021-12-20 加入

全世界第一款完全开源基于WebGPU标准的轻量级渲染引擎,在浏览器中实现桌面级渲染效果,支持超大复杂场景3D呈现。易上手,易分享,易迭代,易协作、成本低,跨平台是核心优势,将为3D场景爆发时代提供引擎基础工具。

评论

发布
暂无评论
基于WebGPU的AI原生3D引擎迎来新机遇!Orillusion在GOTC上演讲!_开源_Orillusion_InfoQ写作社区