基于大模型的图像视频处理技术总结
前言
图像以及视频的处理在近几年尤为火爆,大量研究人员在基于人工智能技术、机器学习以及大模型的基础上完成了大量开的发工作,特别是在今年得到了很大的进展。
简介
最近,元宇宙内以及在线视频流和广播领域的应用扩散模型的商业化趋势日益明显。这些领域需要提供高吞吐量和低延迟的扩散管道,以确保高效的人机交互。一个相关的例子是使用扩散模型来创建虚拟的 YouTuber。 这些数字角色应该能够以流畅且敏感的方式对用户输入做出反应。为了提高高吞吐量和实时交互能力,当前的工作主要集中在减少去噪迭代次数,例如从 50 次迭代减少到几次甚至一次。常见的策略是将多步扩散模型提炼为几个步骤或使用神经常微分方程重新构建扩散过程[14, 26]。量化也被应用于扩散模型以提高效率。在本文中,我们从正交方向开始,介绍 StreamDiffusion 模型,这是一种管道级解决方案,可以实现高吞吐量的实时交互式图像生成。这个模型强调现有的模型设计工作仍然可以与我们的流程集成,这些种方法允许使用 N 步去噪扩散模型,同时仍然保持高吞吐量,并为用户提供更灵活的选择其首选模型。在 StreamDiffusion 模型中利用了一个简单的策略:不是原来的顺序去噪模式,而是批量去噪步骤。 受到计算机体系结构管道中异步处理的启发,并指出我们不需要等待先前的去噪过程完成才开始当前的去噪步骤。针对输入频率和深度神经网络处理频率的同步问题,利用队列策略来缓存输入和输出。模型的管道不同于单纯的异步处理,并且利用 GPU 并行性的优势,因此,可以使用一个深度神经网络对批量噪声潜在特征进行去噪。 更重要的是,现有的扩散管道结合了无分类器指导,以强调生成图像中的给定提示。然而,无分类器指导的传统实现受到过多和冗余的计算开销的困扰。 所以在模型中引入了一种称为残差无分类器指导(RCFG)的创新方法。这项新技术用虚拟残留噪声来近似负条件,这使我们能够仅在过程的初始步骤中计算负条件噪声。 此外,大量研究人员表示始终将扩散模型维持在交互模式是非常耗能的,因为它会持续影响 GPU。 为了减少能量,模型进一步应用随机相似性过滤策略。在管道中,我们计算连续输入之间的相似性,并确定扩散模型是否应根据相似性处理图像。经过大量实验表明,最新提出的 StreamDiffusion 模型在一个 RTX4090 GPU 上可以实现飞快地的图像生成速度,超过现有的很多模型。此外最新提出的模型是一种新的扩散管道,不仅高效而且节能。
总结
图像以及视频的处理一直以来是大家想要解决的难题,为了提高精度和准确性,在大模型的帮助下,图像以及视频的处理技术变得更加成熟,在新的一年里我也会继续研究这个领域,争取搞出更好更优秀的模型。
版权声明: 本文为 InfoQ 作者【lisa】的原创文章。
原文链接:【http://xie.infoq.cn/article/6fcf934cb5d8e2bfefd054a1e】。文章转载请联系作者。
评论