NeurIPS 2024|统一的多模态文字理解与生成大模型



本文介绍 NeurIPS 2024 录用论文“Harmonizing Visual Text Comprehension and Generation”的主要工作。这篇文章提出了首个 OCR 领域的大一统多模态文字理解与生成大模型,即 TextHarmony。TextHarmony 不仅精通视觉文本的感知(文字检测识别等)、理解(KIE、VQA 等)和生成(视觉文字生成、编辑、抹除等),而且在单一模型中实现了视觉与语言模态生成的和谐统一。
一、研究背景
如何让机器像人类一样感知、理解、编辑和生成图像中的文字,一直是人工智能领域的热点问题。当前视觉文字领域的大模型研究专注于单模型生成任务,单模态生成的大模型虽然统一了某些任务,但无法做到 OCR 领域中大部分任务的大一统,比如 Monkey 等 VLM 只能处理文字检测、识别、VQA 等文本模态生成的任务,无法胜任文字图像生成、抹除、编辑等图像模态生成的任务,基于 diffusion model 的图像生成模型如 AnyText 则相反,OCR 领域中的多模态生成统一大模型仍然是一个空白。此外,研究人员在探索中发现,在多模态生成大模型中,视觉与语言模态之间的固有不一致性,往往导致性能的显著下降。面对这种不一致性时,最近的一些工作依赖于特定模态的监督微调,从而产生文字生成和图片生成两个不同的模型权重。这种做法违背了统一视觉理解与生成的初衷。为了解决这些难题,作者提出了一种创新的多模态生成模型——TextHarmony。

二、关键问题
TextHarmony 的核心贡献在于其能够统一视觉文本的理解和生成。在以往的研究中,理解与生成任务往往由不同的模型分别处理。例如,一些模型专注于从图像中检测和识别文字,而另一些模型则致力于根据文字描述生成、编辑图像。TextHarmony 通过整合这两大类生成模型,使得模型能够同时进行视觉文字理解和视觉文字生成,从而统一了 OCR 领域中的大部分任务。

然而,研究人员发现,视觉理解和视觉生成之间具有较大的差异,直接将他们整合在一个模型中,会产生严重的模态不一致问题。具体地,多模态生成模型在文本生成(视觉感知、理解)和图像生成上,相比单模态生成模型(视觉理解模型或者图像生成模型)效果有比较明显的劣化。

如图所示,在文本生成任务上,多模态生成模型相比单模态生成模型效果降低 5%,在图像生成上效果则最高降低了 8%。研究人员提出的 TextHarmony 则大大缓解了模态不一致问题,其在文本生成和图像生成任务上的指标,都较为接近单模态生成的专家模型。
三、方法原理简述
TextHarmony 主要是基于 ViT+MLLM+Diffusion Model 的结构,其中 ViT 负责将图像压缩为视觉 token 序列。MLLM 的输入是视觉 token 与文本 token 的交叉序列,其输出 token 分为两种:(1)文本 token 将会被送入一个文本解码器,解码为文本输出;(2)视觉 token 将会和文本 token 拼接,一起作为 Diffusion Model 的 condition(条件),引导 Diffusion Model 生成目标图像。通过结合多模态大语言模型和扩散模型,TextHarmony 实现了多模态内容的理解与生成。

为了缓解训练过程中的模态不一致问题,研究者提出 Slide-LoRA,通过动态聚合模态特定的和模态无关的 LoRA(Low-Rank Adaptation)专家,来实现在单一模型中部分解耦图像和文本的生成空间。具体地,Slide-LoRA 主要由一个动态门控网络和三个低秩分解模块组成。其中,模态特定 LoRA 专家专门处理与特定模态(视觉或语言)相关的生成任务,使得模型能够在各自的空间中更有效地学习和生成,而模态无关的 LoRA 专家处理与两种模态都相关的通用特征,增强了模型对跨模态共享知识的学习。动态门控网络根据输入的文本和图像特征,动态决定在生成过程中使用哪些模态特定的专家和模态无关的专家,从而实现对不同模态生成任务的适应。
TextHarmony 的训练分为两阶段,一阶段使用 MARIO-LAION 和 DocStruct4M 等图文对来预训练模型的对齐模块(Perceiver Resampler)和图像解码器,使得模型具备初步的文本生成与图像生成能力。二阶段使用视觉文本的生成、编辑、理解、感知四个类别的数据来做统一微调,这个阶段 ViT、对齐模块、图像解码器和 Slide-LoRA 都被放开,从而学习到统一的多模态理解与生成能力。
四、主要实验及可视化
研究者在视觉文本场景对 TextHarmony 做了四个方面的对比实验:理解、感知、生成与编辑。
> 视觉文本理解:TextHarmony 大幅度超过了多模态生成模型,并且接近 Monkey 等文字理解专家模型。

> 视觉文本感知:TextHarmony 在 OCR 定位任务上超过了 TGDoc、DocOwl1.5 等模型。

> 视觉文本编辑与生成:TextHarmony 大幅度超过了所有的多模态理解模型,并且接近 TextDiffuser2 等专家模型。

文字生成效果对比

文字编辑效果对比

文字图像感知与理解可视化

五、总结
TextHarmony 是首个 OCR 领域的多模态生成模型,统一了视觉文本理解和生成任务。针对多模态生成模型的模态不一致问题,研究者提出 Slide-LoRA 模块,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony 展现出了优秀的视觉文字感知、理解、生成和编辑能力,为依赖于视觉文本理解和生成的复杂交互任务提供了革命性的前景。
六、相关资源
论文链接:https://arxiv.org/abs/2407.16364
代码开源:https://github.com/bytedance/TextHarmony(已开源)
评论