英特尔研究院发布全新 AI 扩散模型,可根据文本提示生成 360 度全景图
LDM3D 是业界领先的可创建深度图的生成式 AI 模型,有望革新内容创作、元宇宙和数字体验
英特尔研究院宣布与 Blockade Labs 合作发布 LDM3D(Latent Diffusion Model for 3D)模型,这一全新的扩散模型使用生成式 AI 创建 3D 视觉内容。LDM3D 是业界领先的利用扩散过程(diffusion process)生成深度图(depth map)的模型,进而生成逼真的、沉浸式的 360 度全景图。LDM3D 有望革新内容创作、元宇宙应用和数字体验,改变包括娱乐、游戏、建筑和设计在内的许多行业。
英特尔研究院人工智能和机器学习研究专家 Vasudev Lal 表示:“生成式 AI 技术旨在提高和增强人类创造力,并节省时间。然而,目前的大部分生成式 AI 模型仅限于生成 2D 图像,仅有少数几种可根据文本提示生成 3D 图像。在使用几乎相同数量参数的情况下,不同于现存的潜在扩散模型,LDM3D 可以根据用户给定的文本提示同时生成图像和深度图。与深度估计中的标准后处理方法相比,LDM3D 能够为图像中的每个像素提供更精准的相对深度,并为开发者省去了大量用于场景开发的时间。”
封闭的生态系统限制了规模。英特尔致力于推动 AI 的真正普及,通过开放的生态系统让更多人从这项技术中受益。计算机视觉领域近年来取得了重大进展,特别是在生成式 AI 方面。然而,当今许多先进的生成式 AI 模型只能生成 2D 图像。与通常只能根据文本提示生成 2D RGB 图像的现有扩散模型不同,LDM3D 可以根据用户给定的文本提示同时生成图像和深度图。与深度估计(depth estimation)中的标准后处理(post-processing)方法相比,LDM3D 在使用与潜在扩散模型 Stable Diffusion 几乎相同数量参数的情况下,能够为图像中的每个像素提供更精准的相对深度(relative depth)。
这项研究有望改变我们与数字内容的互动方式,基于文本提示为用户提供全新的体验。LDM3D 生成的图像和深度图能够将诸如宁静的热带海滩、摩天大楼、科幻宇宙等文本描述转化为细致的 360 度全景图。LDM3D 捕捉深度信息的能力,可以即时增强整体真实感和沉浸感,使各行各业的创新应用成为可能,包括娱乐、游戏、室内设计、房产销售 ,以及虚拟博物馆与沉浸式 VR 体验等。
6 月 20 日,在 IEEE/CVF 计算机视觉和模式识别会议(CVPR)的 3DMV 工作坊上,LDM3D 模型获得了“Best Poster Award”
LDM3D 是在 LAION-400M 数据集包含一万个样本的子集上训练而成的。LAION-400M 是一个大型图文数据集,包含超过 4 亿个图文对。对训练语料库进行标注时,研究团队使用了之前由英特尔研究院开发的稠密深度估计模型 DPT-Large,为图像中的每个像素提供了高度准确的相对深度。LAION-400M 数据集是基于研究用途创建而成的,以便广大研究人员和其它兴趣社群能在更大规模上测试模型训练。
LDM3D 模型在一台英特尔 AI 超级计算机上完成了训练,该超级计算机由英特尔®至强®处理器和英特尔®Habana Gaudi® AI 加速器驱动。最终的模型和流程整合了 RGB 图像和深度图,生成 360 度全景图,实现了沉浸式体验。
为了展示 LDM3D 的潜力,英特尔和 Blockade 的研究人员开发了应用程序 DepthFusion,通过标准的 2D RGB 图像和深度图创建沉浸式、交互式的 360 度全景体验。DepthFusion 利用了 TouchDesigner,一种基于节点的可视化编程语言,用于实时互动多媒体内容,可将文本提示转化为交互式和沉浸式数字体验。LDM3D 是能生成 RGB 图像及其深度图的单一模型,因此能够节省内存占用和降低延迟。
LDM3D 和 DepthFusion 的发布,为多视角生成式 AI 和计算机视觉的进一步发展铺平了道路。英特尔将继续探索如何使用生成式 AI 增强人类能力,并致力于打造一个强大的开源 AI 研发生态系统,让更多人能够使用 AI 技术。延续英特尔对开放 AI 生态系统的大力支持,LDM3D 正在通过 HuggingFace 进行开源,让 AI 研究人员和从业者能对这一系统作出进一步改进,并针对特定应用进行微调。
在 2023 年 6 月 18 日至 22 日举行的 IEEE/CVF 计算机视觉和模式识别会议上,英特尔将发表这项研究成果。欲了解更多信息,请参考论文《LDM3D: Latent Diffusion Model for 3D》。
评论