天工一刻 | 一文看懂 3D 大模型
3D 大模型,正在成为下一个风口。自 2023 年年底以来,一大批 AI 3D 模型生成相关技术取得突破,Meta、Adobe、Stability AI,以及 VAST(Tripo AI)、sudo AI、Meshy AI、Rodin 等海内外玩家动作频频。
今年 3 月以来,arXiv 上的 3D 生成(3D Generation)论文数量更是从 200+篇/月飙升至 400+篇/月,几乎飙升 100%——这背后是 3D 模型多项核心技术取得突破,大量新兴研究涌现。
与此同时,此前百花齐放的技术路径也在逐渐形成产业共识,步入收敛。例如,在 GAN、VAE、Diffusion 等不同生成方案中,以 Diffusion Transformer(DiT)为代表的大模型路径脱颖而出,逐渐成为当前的研究主流方案。不过,当前,在 3D 生成技术路径上,仍然存在“2D 升 3D”“纯原生 3D”“混合 3D”的不同技术流派。在过去半年甚至一年多的时间里,AI 3D 生成技术发展堪称突飞猛进:3D 模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时为单位的 3D 模型生成时间压缩到秒级,带来惊人的效率提升。3D 模型的 GPT 时刻,即将来临。
传统 3D 模型设计:流程长、环节复杂、价格贵
大多数人对 3D 模型并不陌生。最常见的是各类游戏、影视、动漫、CG 中的 3D 人物与 3D 物品/环境。当前,最精致的 3D 模型已经足以高度媲美真人。
(游戏《黑神话·悟空》截图)
此外,在 VR、元宇宙、数字人等科技前沿赛道,3D 模型也有着广泛的应用。
(央视新闻数字手语主持人)
对于处在三维空间中的人类来说,3D 内容毫无疑问能够提供比文字、图片、视频更沉浸、更逼真的内容体验。随着 3D 技术的发展,未来,人们甚至可以像《黑客帝国》《头号玩家》一样,创造出一个三维立体的、足以以假乱真的虚拟世界——元宇宙。但正如文字-图片-视频-3D 所承载的信息量呈指数上升,3D 内容生产的复杂度也在急剧增加。以传统 3D 模型的生成为例,其制作环节可分为:概念设计/原画、3D 建模、UV 拆分、烘焙贴图、绘制材质、动画制作、渲染等诸多环节。
根据模型的复杂度与精细度不同,一个 3D 模型的生产周期可能在数小时、乃至数天以上,成本范围在 40 美元~650 美元之间。流程长、环节多、程序复杂、价格昂贵,同时普遍依赖专业人员手动操作,一道道关卡将 3D 模型的制作门槛不断推高。值得注意的是,当前的 3D 大模型远远做不到替代 3D 设计师,其生成的质量并未达到“开箱可用”的商业级别,而更像是 Adobe、数位板这类帮助设计师减少重复劳动,提高生产力的工具。3D 大模型想要解决的,是 3D 制作流程中最耗费时间精力、最重复劳动的环节——建模与贴图,通过 AI 技术将 3D 设计师们从重复劳动中解放出来,更专注地投入到艺术创作当中。
流派众多,百花齐放
评价一个 3D 模型生成效果,有以下几个核心指标:
1、几何模型的形状准确度;
2、纹理贴图质量效果与“几何-纹理”一致性;
3、3D 模型生成速度;
3D 建模相关研究最早可以追溯到 20 世纪 60 年代末的线框模型(Wire Frame Model),此后已经历数十年发展。
此前,3D 生成技术流派众多,在各种细分方向百花齐放。
按照生成方式分类,主流 3D 生成的派别包括文生 3D(text-to-3D)、图生 3D(image-to-3D);
按照生成路径划分,根据论文《A Comprehensive Survey on 3D Content Generation》的分类,可以将 3D 大模型生成分为:2D 升 3D(2D prior-based 3D generative)、纯原生 3D(3D native generative)、混合 3D(hybrid 3D generative)三大派别;
根据 3D 建模方案划分,可以分为:点云(Point Cloud)、网格(Mesh)、深度(Depth)、神经场(Neural Fields)、混合(Hybrid)等多种方案;
(3D 生成模型技术发展路线,数据截止至 2023 年 8 月;来自论文《3D Generative Models: A Survey》)
根据 3D 生成模型划分,则包括 GAN、VAE、Autoregressive、Diffusion 等模型。
目前,3D 大模型业内最新“新鲜”的研究成果来自 Meta。2024 年 6 月 25 日,Meta 发布了其最新 3D 大模型研究——Meta 3D Gen。这是一款文生 3D(text-to-3D)大模型,其能够在数十秒(<1 分钟)内生成几何形状准确、纹理材质优秀的 3D 模型。准确来说,Meta 3DGen 是一套组合模型,其几何形状与贴图纹理是两个步骤(2 Stages),分别由 Meta 3D AssetGen、Meta 3D TextureGen 两个模型生成。
(Meta 3D Gen 生成流程,来自论文《Meta 3D Gen》)这一技术路径将 3D 几何生成与 3D 纹理贴图作为两个步骤分别处理,其优势在于几何形状质量更好,而缺点在于会影响模型生成速度与几何纹理一致性。目前,业内也有不少 3D 大模型方案选择 1 Stage 一步到位的端到端生成方案,几何与纹理同步输出生成,这一技术路径的优势在于速度与纹理效果,但缺点在于几何形状质量会受到纹理影响——如一张带有波点图案的水平桌面,可能会被 3D 模型识别为凹凸不平。这两条技术路径各有千秋,目前业内尚未达成共识。
3D 大模型的 三大主流路径
当前,3D 大模型研究的最大挑战,不是算法、甚至也不是算力——而是数据。训练数据短缺问题在文本、图像、视频大模型领域都存在,但在 3D 大模型领域格外严重。昆仑万维董事长兼 CEO 方汉在接受媒体采访时曾表示,在 3D 模型生成赛道,全世界的数据只有 1000 多万,优质的数据只有 200 万。3D 数据资源少、清洗难度高、高质量 3D 数据资源难以获取……种种困难为 3D 大模型的打造形成了诸多限制。
因此,早期 3D 生成模型的研究思路以“2D 升 3D”为主——先生成多视角的 2D 图像,然后根据该图像生成 3D 模型。
(1)2D 升 3D
这一思路的代表项目为 2022 年 9 月底谷歌推出的 DreamFusion 项目《DreamFusion: Text-to-3D using 2D Diffusion》。与 3D 模型资源相比,文生 2D 图(text-to-image)领域拥有数十亿计的海量资源,因而谷歌 DreamFusion 项目采用了“2D 升 3D”的思路,先使用一个预训练 2D 扩散模型基于文本生成一张二维图像,然后引入 Score Distillation Sampling(SDS)基于概率密度蒸馏的损失函数,生成高质量和复杂的三维结果。这一方法的亮点在于无需任何 3D 数据预训练即可生成 3D 模型,开创了 SDS 路径的先河,也在随后催生出大量“2D 升 3D”的相关研究。
(2D 升 3D 路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)
但与此同时,以 SDS 为代表 2D 升 3D 路线也存在生成速度慢、生成质量不可控等问题,其中最受关注的是由此带来的“多头”问题(Janus problem)——在生成的 3D 模型中,有时会出现两个甚至多个人物/动物头部,高度影响模型的合理性。因而,近年间,原生 3D 又逐渐成为研究主流。准确划分起来,原生 3D 又可以分为“纯原生”3D 生成与“混合”3D 生成两条路径。
(2)“纯原生”3D
“纯原生”3D 生成方案与通用大模型思路类似,采用端到端方案,首先使用海量 3D 数据集训练大模型,然后以前馈(feed-forward)方案生成 3D 模型。
(“纯原生”3D 大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)
这一路径的代表玩家毫无疑问有 OpenAI——Scaling Law 与大模型领域的坚定支持者。2022 年 12 月,OpenAI 发布论文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》,并开源了文生 3D 项目 Point-E;2023 年 5 月,OpenAI 则进一步发布论文《Shap-E: Generating Conditional 3D Implicit Functions》,开源了升级版模型 Shap-E。
(OpenAI 于 2022 年底发布的 Point-E 大模型 3D 生成效果 demo)
与文本大模型不同,在 3D 大模型领域,OpenAI 并没有显著的领先优势。3D 原生路径的真正代表玩家为 Adobe 于 2023 年 11 月推出的 LRM 项目《LRM: Large Reconstruction Model for Single Image to 3D》。LRM 是图生 3D 的代表模型,其拥有 5 亿参数,能够在 5 秒钟内实现图片-3D 模型的生成。LRM 采用高度可扩展的 transformer-based 架构,其突破性地将图生 3D 任务转换成了“将图片翻译为 3D 模型”的任务,并在 100+万公开 3D 数据集上进行了训练。Adobe 的 LRM 项目因 3D 模型的生成质量与生成速度都有着极大提高,其发布后在学术与产业界引起了大量关注,并也从此催生了一大批相关研究。不过,高质量 3D 数据稀缺依旧困扰着“纯原生”3D 大模型的发展。因而,近年间,“混合”3D 生成技术路径悄然兴起。
(3)“混合”3D
混合 3D 是当下 3D 大模型最前沿的技术方向,也是昆仑万维 3D 大模型团队专攻的技术方向。
由于纯原生 3D 路径训练数据不足,而 2D 升 3D 路径只能提取有限的 3D 几何知识。因此,在最新的混合 3D 路径中,大模型研发人员将 3D 信息注入预训练的 2D 模型,例如,通过多视角图像微调 Stable Diffusion 模型,使其能够生成稳定、一致的 3D 模型。
以困扰“2D 升 3D”路径的“多头”问题(Janus problem)为例,通过将多视角 Stable Diffusion 与大规模 3D 重建模型相结合,混合 3D 能够有效解决模型 3D 几何生成质量问题,解决多头问题并提升模型生成速度。
(“混合”3D 大模型路径代表研究,来自论文《A Comprehensive Survey on 3D Content Generation》)
除了昆仑万维外,这前沿一思路的代表项目包括哥伦比亚大学的 Zero123、加州大学与 Adobe 等的 One-2-3-45、香港大学与腾讯游戏等的 SyncDreamer、香港大学与清华大学等的 Wonder3D、Adobe 的 Instant3D 等等。
这一技术路径既利用了目前丰富的 2D 图像资源,规避了 3D 数据不足问题,又一定程度上突破了 2D 升 3D 带来的几何等多项问题。
当前,昆仑万维 3D 大模型团队坚持自研混合 3D 技术路线,在 3D 大模型两大核心领域(3D 几何生成与 3D 纹理生成)均达到产业最领先水平。相较于同类产品,昆仑万维 3D 大模型有着极强的模型优势与数据壁垒,在 3D 大模型领域拥有三大产品技术亮点:
(1)模型生成速度更快;
(2)模型布线更加规则,方便接入游戏引擎;
(3)模型纹理更加可控。
例如,在 3D 纹理生成领域,今年 3 月,昆仑万维联合北京大学、浙江大学、南洋理工大学共同发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》,该论文是 3D 大模型纹理生成领域的最前沿技术成果之一,其创造性地将深度信息(Depth)融入模型纹理生成环节,使得 3D 模型的纹理生成效果更稳定、更自然;项目的另一大亮点在于模型的可交互性,普通用户只需要通过简单的文字指令,就能实时改变 3D 模型的局部颜色、纹理,大幅降低 3D 大模型纹理生成的工业应用门槛。
(昆仑万维 2024 年 3 月发布论文《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》)
InTeX 是一款可交互的、文生纹理(Text-to-Texture)大模型,用户可以通过简单的文字指令实时改变 3D 模型的局部纹理。
该模型通过将深度信息(Depth)与 inpainting 纹理贴图相结合,解决了目前常见的预训练深度 Diffusion + inpainting 模型方案存在几何-纹理不一致、不可控问题,提高了模型生成速度,并能够允许用户实现特定区域的重新绘制和精确的纹理编辑。
值得一提的是,在最新的 Meta 3D Gen 纹理生成研究中,引用了昆仑万维团队《InTeX: Interactive Text-to-texture Synthesis via Unified Depth-aware Inpainting》的研究内容。
结语
在过去半年甚至一年多的时间里,AI 3D 生成技术发展堪称突飞猛进:3D 模型生成的质量更好、速度更快——部分情况下甚至能把原来以小时单位的 3D 模型生成时间压缩到秒级,带来惊人的效率提升。
与此同时,3D 大模型目前仍然面临着训练数据不足、模型几何准确性不够、精细度不足、模型几何-纹理一致性不足等多项挑战,暂时无法满足 4A 大作、科幻电影中高度精细化的 3D 模型生成需求。
不过在大量中小型场景中,已经能够满足需求。在影视、游戏行业中,3D 大模型能够快速生成 3D 原型,帮助设计师们实时具现化灵感,提高工作效率。而在工业设计、制造等场景中,3D 大模型还可以用于产品原型设计和仿真测试,减少研发成本和时间。此外,3D 大模型在 AI 视频、元宇宙,甚至具身智能领域都有着广阔的应用空间。随着相关技术的快速发展,3D 大模型即将迎来更多突破性进展。
评论