写点什么

论文解读 - 统一的多模态理解和生成模型综述(下)

  • 2025-05-30
    上海
  • 本文字数:8553 字

    阅读完需:约 28 分钟

论文解读 - 统一的多模态理解和生成模型综述(下)

五、统一模型的数据集

大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如 Common Crawl 1、RedPajama、WebText 等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表 3 中列出的每个类别中的代表性数据集,重点关注 2020 年以后发布的数据集。

5.1 多模态理解数据集

这些数据集主要用于训练模型的跨模态理解能力,支持图像描述、视觉问答(VQA)、图像文本检索和视觉定位等任务。它们通常包含大量图像集合,并配有相应的文字描述。


RedCaps :该数据集包含来自 Reddit 的 1200 万张图片和文字对。它特别专注于捕捉用户在社交媒体平台上 经常分享的日常物品和时刻(如宠物、爱好、食物、休 闲等)。


Wukong:Wukong 数据集是一个大规模的中文多模态预训练数据集,包含从网络中筛选出的 1 亿个中文图像-文本对。其创建旨在解决大规模、高质量中文多模态预训练数据的缺乏问题,显著促进了针对中文场景的多模态模型的发展。


LAION :LAION(大规模人工智能开放网络)项目提供了最大的公开可用的图像-文本对数据集之一。例如,LAION-5B 包含了近 60 亿个从网络爬取的图像-文本对。这些数据经过过滤使用 CLIP 模型旨在确保图像与文本之间具有一定的关联性。由于其庞大的规模和多样性,LAION 数据集已成为许多大型多模态模型预训练的基础。其子集 Laion-COCO 包含了 6 亿个高质量的样本,旨在提供一个风格更接近 MS COCO 的大规模数据集。


COYO :COYO 是另一个大规模的图像-文本对数据集,包含大约 7.47 亿个样本。与 LAION 类似,它来源于网络爬取并经过过滤处理。它为社区提供了 LAIONl 的一个替代的大规模预训练资源。


DataComp:DataComp 包含来自 Common Crawl 的 1.40 亿个样本,使用精心设计的过滤策略(CLIP 评分和基于图像的过滤),旨在提供比原始爬取数据更高质量的图像-文本对。


ShareGPT4V:该数据集提供了大约 10 万高质量的图像-文本对话数据点。它专门设计并用于增强大型多模态模型的指令遵循和对话能力,使其成为更好的对话代理。


CapsFusion-120M :这是一个从 LaionCOCO 中选取的 120M 图像-文本对的大规模集合。标题是通过将 Laion-COCO 中的标题与 CapsFusionLLaMA 整合获得的。


其他数据集:最近开发的额外理解数据集包括 GRIT(基于网格的图像-文本表示)(包含 2000 万个样本, 强调细粒度的图像区域-文本短语对齐)。此外,尽管 SAM 数据集最初并不包含图像-文本对,但 1100 万张高分辨率图像及其详细的分割掩码提供了宝贵的空间和语义信息。可以增强多模态模型的细粒度理解能力,如理解物体位置、边界或执行特定区域的操作等。此外,文本到图像模型的数据也可以用于多模态理解任务。

5.2 文本到图像数据集

这些数据集主要用于训练生成与文本描述相对应的图像的模型。它们通常由图像-文本对组成,通常更强调图像的美学质量、内容的丰富性或特定的风格属性。


CC-12M(Conceptual Captions 12M):CC-12M 包含从网络 Alt-text 中提取和过滤的 1200 万张图像-文本 对。与原始网络爬取数据相比,其文本描述通常更加简洁和描述性,因此被广泛用于训练文本到图像模型。


LAION-Aesthetics:这是 LAION 数据集的一个子集,使用美学评分模型过滤,选择大约 1.2 亿张被认为具有更高“美学价值 ”的图像(及其文本)。


Mario-10M 和 AnyWord-3M:这两个数据集专注于图像中文字的准确渲染。Mario-10M(1000 万个样本),用于训练 TextDiffuser 模型,以及 AnyWord-3M(300 万个样本),用于训练 AnyText,提供了专门设计的数据,旨在提高图像生成文字的可读性和位置。


JourneyDB: JourneyDB 由 Midjourney 平台生成的 400 万个高质量图像提示对组成。由于 Midjourney 以生成创意和艺术图像而闻名,该数据集为训练模型学习复杂、详细和艺术风格的文本到图像映射提供了宝贵的资源。


CosmicMan-HQ 1.0:它包含 600 万张高质量的真实世界人类图像,平均分辨率为 1488×1255 像素。该数据集的特点是精确的文字标注,源自 1.15 亿个不同粒度的属性。它可以用于提高生成人类图像的能力。


PixelProse:PixelProse 从 DataComp、CC -12M 和 RedCaps 中提取,包含丰富注释的图像及其相应的文本描述。该数据集提供了有价值的元数据,如水印存在和美学评分,可用于过滤以获取预期图像。


Megalith:Megalith 包含约 1000 万张被归类为“照片 ”的 Flickr 图片链接,这些图片的许可确保了没有版权限制。社区使用如 ShareCaptioner、 Florence2 和 InternVL2 等模型制作的图注已公开提供。


PD12M [208]:PD12M 包含了 1240 万张高质量的公共领域和 CC0 许可的图像,这些图像配以使用 Florence-2- large 生成的合成标题。它专为训练文本到图像模型而设计,提供了一个庞大的集合,同时最大限度地减少了版权问题。


其他数据集:SAM 数据集(约 1100 万张高分辨率图像)和 DenseFusion(100 万个样本)是用于文本到图像生成模型训练的其他潜在数据源。请注意,多模态理解数据集可以通过美学评分过滤、NSFW 过滤、分辨率过滤、水印过滤、重字幕等方法合成文本到图像生成数据,但这里未作介绍。

5.3 图像编辑数据集

随着模型能力的提升,基于指令的图像编辑已成为一个重要研究方向。这类数据集通常包含三元组(源图像、编辑指令、目标图像)。这些数据集用于训练模型根据文本命令修改输入图像,从而增强统一模型的理解和生成能力。


InstructPix2Pix:该数据集采用了一种创新的合成方法生成:首先,大型语言模型(如 GPT-3)为目标图像生成编辑指令和标题;然后,文本到图像模型(如 Stable Diffusion)根据原始和目标标题生成“前”和“后”图像。此方法自动生成了约 313K 个(指令、输入图像、输出图像)训练样本。


MagicBrush:MagicBrush 是一个高质量的手动标注数据集,用于基于指令的图像编辑。它包含大约 10,000 个样本,涵盖了各种逼真且细致的编辑操作(如对象添加/移除/替换、属性修改、风格转移),并提供了编辑区域的遮罩。其手动标注使得指令更加自然多样。


HQ-Edit、SEED-Data-Edit、UltraEdit、OmniEdit、AnyEdit:这些代表了更近期、更大规模的图像编辑数据集。例如,SEED-Data- Edit 包含 370 万个样本,UltraEdit 拥有 400 万个样本,AnyEdit 提供 250 万个样本,OmniEdit 包括 120 万个样本,而 HQ-Edit 则包含 19.7 万个样本。他们经常将自动生成与人工过滤/注释相结合,旨在提供更大规模、更高质量和更多样化的编辑指令和图像对,以训练更健壮的指令跟随编辑模型。

5.4 交错图像文本数据集

除了包含配对图像和说明的数据库外,另一个重要类别是交错图像文本数据。这些数据集包含文档或序列,其中文本和图像自然地交替出现,类似于网页或文档中的内容。在这些交织数据上训练模型可以增强其理解和生成多模态内容的能力,这是统一模型的重要目标。


多模态 C4(MMC4):MMC4 通过算法将图像与来自 Common Crawl 的文本文件交错在一起,扩展了大规模纯文本的 C4 语料库。这个公共数据集包含超过 1.01 亿篇文档和 5.71 亿张图片,旨在为设计用于处理图像和文本混合序列的模型提供必要的交错预训练数据。


OBELICS:OBELICS 是一个开放的、网络规模的数据集,包含从 Common Crawl 中提取的 1.41 亿个多模态网页文档,其中包括 3.53 亿张图像 1150 亿个文本令牌。该数据集专注于捕捉完整的文档结构,而不是孤立的图像-文本对,旨在提高模型在各种基准上的性能。


CoMM:CoMM 是一个高质量、精心策划的数据集,专注于交错图像-文本序列的连贯性和一致性,包含约 227,000 个样本。它通过主要从教学和视觉叙事网站(如 WikiHow)获取内容,并应用多视角过滤策略,解决了大型数据集中观察到的叙述流畅性和视觉一致性问题。CoMM 致力于增强大语言模型生成逻辑结构良好且视觉上一致的多模态内容的能力,并引入了新的基准任务,专门设计用于评估这些能力。

5.5 其他文本+图像到图像数据集

除了前面提到的类别之外,为了进一步增强统一模型的能力,例如基于提供的主题图像生成图像,或利用控制信号(例如深度图、canny 图),论文引入了相关的数据集。


LAION-Face:上述讨论的数据集强调了以主题驱动的一般生成,而保持身份的图像生成则代表了这一类别中的一个专门子集。利用包含 5000 万张图像-文本对的 LAION-Face,近期如 InstantID 等进展已成功在生成图像的同时保持了角色的身份。


MultiGen-20M:该数据集包含 2000 万个样本,旨在训练能够根据多种控制信号(如文本描述、边缘图、深度图、分割掩模、草图)生成统一图像的模型,例如 UniControl 。它整合了来自不同来源的数据,并将其转换为统一格式,使模型能够学习多任务、多条件图像生成。该数据集可以构建为三元组形式,例如“深度图、带提示的指令、目标图像 ”,以有效训练统一模型。


Subjects200K:包含 200K 个样本,Subjects200K 专注于受试者驱动的图像生成,这对于个性化内容创建至关重要。该数据集是通过多阶段流程综合生成的:首先,大型语言模型(ChatGPT-4o)创建涉及对象类别和场景的结构化描述;随后,图像合成模型(FLUX)根据这些描述生成多样但一致的配对图像;最后,大型语言模型对生成的配对进行质量评估,以确保主题一致性、构图恰当和高分辨率。


SynCD:SynCD(合成定制数据集)提供约 95K 组图像,专门设计用于文本+图像到图像的定制任务,解决缺乏包含同一对象在不同条件下的多张图 像的公共数据集的问题。该方法通过利用现有的文本到图像模型和 3D 数据集(如 Objaverse)进行合成一个对象的多个视图,具有不同的照明、背景 和姿势,并结合共享注意力和深度引导等技术。


涉及单个和多个主题的主题驱动生成是一种关键的图像生成能力,它在社区内越来越受到关注。它也被预期为统一模型中固有的一个重要特性。然而,从公共数据集中获取此类专门数据颇具挑战性,因此经常使用数据合成方法,例如 Subjects200K 和 SynCD 等数据集。这些数据集展示了对合成数据日益增长的依赖,以解决诸如主题驱动生成和定制等任务所需公开训练样本的短缺问题。


为了创建大规模数据集,已经开发了多种 pipeline,以编程方式生成合适的训练数据,通常利用易于获取的图像或视频资源。下面,论文提供这些 pipeline 的简要概述供参考。


图像数据合成:这些流程通常以单张图像为起点,使用如 BLIP-2 或 Kosmos2 等模型进行初始标题生成(包括用边界框标注的标题),随后通过物体检测(例如 grounding DINO)和分割(例如 SAM)提取主体掩码和区域标题。这些流程可以生成单个主题定制和多个主题定制的数据。


视频数据合成:从图像构建的数据常常导致模型学习中的复制粘贴问题。通过视频分割模型(例如,SAM2)从不同帧中提取主体,可以缓解这一问题 。此外,该流程还可以生成用于图像编辑任务的训练数据。


强大的统一多模态模型依赖于最近开发的大规模、高质量和多样化的训练数据集,包括图像-文本对、交错的图像-文本文档以及特定任务格式。虽然大规模网络配对数据(如 LAION、COYO)和交织文档语料库(如 MMC4、OBELICS)为预训练提供了广泛的语义覆盖和上下文理解,但大量努力集中在提高数据质量并针对特定属性或高级功能定制资源上。专门的数据集对于改进基于指令的编辑、准确的文字渲染、连贯的多模态生成以及复杂的条件控制越来越重要。此外,认识到高质量公共数据在基于指令的图像编辑和主题定制等任务中的稀缺性,开发和利用数据合成 pipeline 变得至关重要,这使得能够创建训练这些高度特定模型功能所需的目标数据集。这些多样化数据资源的持续演变、规模扩大、目标专业化以及创新合成是推动统一多模态模型日益复杂的理解和生成能力的根本动力。

六、基准

现代大规模统一多模态模型不仅应在像素级别对齐视觉和语言信息,还应执行复杂的推理,支持连贯的多轮对话,并整合外部知识。同时,这些模型还应生成高质量的视觉输出,忠实遵循文本提示,同时为用户提供对风格和构图元素的精细控制。在本节中,论文将系统地总结相关的评估基准。请参见表 4 以获取统计摘要。


6.1 理解评估

感知。现代视觉-语言大型模型必须通过基础、识别和检索准确地将视觉输入与语言描述连接起来。早期的图像-文本检索和字幕基准测试,如 Flickr30k、MS COCO Captions,评估模型是否能够检索相关的字幕并将文本短语定位到图像区域。视觉问答基准测试,如 VQA、VQA v2、VisDial 和 TextVQA,则进一步要求模型解释复杂的场景并回答关于对象、属性和关系的自由形式查询。特定领域的挑战,如 ChartQA 评估对结构化图表和图形的理解,而 VSR 探测现实世界图像中的空间关系推理。


为了统一评估,大规模元基准测试套件同时测试低层次感 知和专家推理。MMBench 提供了 3000 道双语选择题,涵盖基础、识别和检索,支持跨语言比较。MMMU 增加了约 11500 道大学水平的多模态问题,涉及六个学科,以探究领域知识和逻辑推理。HaluEval 在多种模型生成和标注的陈述中诊断幻觉识别。MM-Vet 涵盖了识别、OCR、空间推理、数学和开放问题回答,其 v2 版本进一步评估交错的图像-文本序列。SEEDBench 设计了一条生成选择题的管道,针对特定的评估维度,最终提供了 19000 道多选题,涵盖 12 个维度。LLaVa-Bench 提供了 COCO 和野外图像集,包含密集查询以进行泛化检查。LAMM 提供涵盖二维和三维模式的指令调优示例,用于代理开发 。 Open-VQA 制定层次化的后续问题,以精炼粗略的 VQA 答案。OwlEval 提供由人类评分的开放式视觉问题,评估相关性和信息量。MMStar 精心策划了涵盖六项核心技能和十八个轴心的挑战样本,实现高精度评估。


推理。基于感知层面的评估,推理基准测试逐步探索更丰富的认知技能。CLEVR 系统地变化对象属性和空间关系,迫使模型执行多跳程序,测试计数、比较和关系逻辑。转向自然图像,GQA 利用密集场景图生成组合问题,使用函数程序来测试一致性、基础性和合理性。


像 OK-VQA 及其更大的继任者 A-OKVQA 这样的常识扩展选择答案位于图像之外的问题,需要检索或推断世界知识库。VCR 进一步要求模型不仅要选择正确答案,还要通过选择连贯的理由来证明它,从而将识别与解释相结 合,并测试多步骤的常识链。


领域特定推理数据集将这一进程扩展到了日常场景之外。 ChartQA 引入了将视觉感知与条形图、折线图和饼图的定量推理交织在一起的问题,整合了数据提取、逻辑比较和算术计算。MathVista 将范围扩大到在视觉基础情境中的数学问题解决,并结合了细粒度的视觉理解和跨多样化的示例的符号操作。这些基准测试构成了一个层次谱系,涵盖了结构化逻辑推理、开放域常识、视觉解释和数值密集型任务,为多模态推理系统提供了全面的压力测试。

6.2 图像生成评估

文本到图像生成。早期的自动化指标,如 FID 和 CLIP- Score,为图像质量评估奠定了基础。然而,最近的基准测试将重点转向了组合性、对齐和实际应用。GenEval 评估了六个细粒度任务,包括单对象生成、对象共现、 计数、颜色控制、相对定位和属性绑定,通过将预训练检测器的输出与真实标注进行比较来完成。


GenAI-Bench 提供了 1.6K 个精心设计的人类提示,涵盖关系、逻辑和属性类别。其评估框架结合了人类偏好判断与自动对齐得分,提供全面的评估 。此外,HRS-Bench 评估了 13 种不同的技能,这些技能被分为五大类:准确性、鲁棒性、泛化能力、公平性和偏见,从而确保性能测量的可扩展性和可靠性。此外,DPG-Bench 专注于描述多个对象的密集提示,每个对象都具有多种属性和关系。


T2I-CompBench 及其继任者 T2ICompBench++特别针对组合泛化,通过基于检测器的评分测试生成新的属性和关系组合。VISOR 提出了一种自动评估生成模型空间理解能力的方法。与此相辅相成的是,Commonsense-T2I 挑战模型描绘需要常识基础的日常概念。


为了支持大规模的概念多样性,EvalMuse- 40K 提供了 40K 个众包提示,专注于细微的概念表示,而 HEIM 识别了 12 个方面,包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏见,毒性、公平性、鲁棒性、多语言性和效率 。考虑到实际需求,FlashEval 通过迭代搜索将大规模评估集缩减为多种较小的集合,以加速基准测试。MEMOBench 引入了一个全面的基准测试,用于评估 T2I 模型和 MLLM 的情感理解和表达能力。


图像编辑。指导式图像编辑的基准测试在规模和范围上都有所增长。MagicBrush 是首个大规模的手动标注数据集,用于指导式真实图像编辑,涵盖了多种场景:单轮、多轮、提供掩码和无掩码编辑。HQ-Edit 包含约 20 万张高分辨率的编辑,具有计算的对齐和连贯性评分,允许使用 GPT-4V 定量评估图像编辑对的质量。


在此基础上,I2EBench 整合了 2K+图像和超过 4K 的多步骤指令,涵盖 16 个编辑维度。EditVAl 提供了一个标准化的基准测试,包含经过标注的图像数据集,这些图像针对多种细粒度编辑类型进行了标注,并使用预训练的视觉-语言模型构建了自动评估 pipeline,其评分与人类判断高度相 关。Emu-Edit 包括七项基于指令的编辑任务,涉及背景修改、全面更改、风格调整、对象移除、对象添加、局部编辑和纹理改变,提供人类指令/图像对以及输入/输出描述。HumanEdit 提供了 5751 张高分辨率图像,配以开 放形式的语言指令,涵盖六种类别编辑任务:动作、添加、计数、关系、删除和替换,通过掩码和多阶段的人类反馈来严格测试指令引导的图像编辑模型。


最近,提出了 GEdit-Bench,这是一个真实世界的图像编辑基准,包括从超过 1K 用户编辑示例中精心挑选的 606 个参考图像-指令对,旨在全面评估实际的图像编辑模型。


其他类型的图像生成。除了文本到图像生成和图像编辑之外,其他基准测试还探索了大规模条件合成和个人化合成。MultiGen-20M 包含超过 2000 万个来自 LAIONAesthetics-V2 的图像-提示-条件三元组,能够全面自动评估不同视觉条件下的对齐情况,并为每个任务提供包含 100-300 个图像-条件-提示三元组的评估集。


DreamBench 引入了一个个性化的世代测试,跨越 30 个参考对象,配以精心策划的提示和人工注释的保真度判断。DreamBench++将这一框架扩展到 150 种不同的参考图像和 1350 个提示,采用先进的多模态语言模型,在概念保留、构图保真度和风格一致性方面实现自动且与人类评分一致的评估。这些数据集共同提供了一个从大规模自动化基准测试到专注于条件和主题驱动图像生成的人类中心评估的连贯谱系。

6.3 交错生成评价

交错评估基准挑战模型在多个回合中无缝切换文本和图像模态,反映真实的对话和故事场景。InterleavedBench 是首个精心策划的跨文本与图像生成评估基准,包含丰富多样的任务,涵盖各种现实应用场景,评估模型的文本质量、感知保真度、多模态连贯性和实用性。在此基础上,ISG 引入了场景图注释和四个层次的评估(整体、结构、块 级和图像特定),在 8 个场景和 21 个子任务中对 1K 个样本进行评估,从而能够对交错的文本-图像输出进行细粒度评估。


其他基准测试强调开放领域指令和端到端交织。OpenING 汇集了 56 个真实任务(如旅行指南、设计构思)中的人工标注实例,使用 IntJudge 测试任意指令驱动的开放式多模 态生成方法。相比之下,OpenLEAF 收集了 30 个开放领域的查询,每个查询均由标注者编写并审查,以探究基础的交织文本-图像生成,通过 LMM 评估器和人工验证来衡量实体和风格的一致性。最后,MMIE 提出了一套统一的交错测试,从 12 个领域和 102 个子领域中采样,提供多种选择题和开放式问题格式,以多样化的方式评估模型。

七、统一模型的挑战和机遇

目前,统一多模态模型仍处于初级阶段,面临诸多挑战,需解决这些问题以实现稳健且可扩展的理解和生成能力 。首先,视觉和文本数据的高维度导致极长的令牌序列。高效的令牌化和压缩策略对于减少内存和计算成本至关重要,同时保持表示的准确性。其次,随着图像分辨率和上下文长度的增加,跨模态注意力成为性能瓶颈。稀疏或层次化注意力机制等可扩展替代方案可能有助于缓解这一问题。第三,预训练数据集通常包含噪声或有偏的图像-文本对,尤其是在复杂图像组合和交织的图像-文本数据中。可靠的数据过滤、去偏和合成对于确保公平性和稳健性至关重要。第四,评估协议通常是为单一任务设计的。对综合评估理解和生成的综合基准的需求日益增长,特别是对于图像编辑和交错图像文本生成等复杂任务。


据论文所知, 目前大多数统一的多模态模型主要侧重于图像理解和文本到图像的生成,而诸如图像编辑等功能则需要通过后微调才能实现。此外,诸如空间控制图像生成、主题驱动图像生成以及交织图像-文本生成等高级功能,在统一框架中仍大多未被探索。因此,论文认为通过解决架构设计、训练效率、数据集管理及评估方法等关键领域的问题,可以为推进该领域的发展提供大量机会。

八、结论

论文提出了一个综合的观点,即在一个单一的框架内整合视觉-语言理解和图像生成的统一多模态模型。首先,论文简要概述了多模态理解和文本到图像生成模型的基础知识和最新进展。随后,论文将统一的多模态模型系统地分类为三大范式:扩散型、 自回归型和混合型方法。对于每一类,论文介绍相关研究并进一步细分为不同的子类别,以帮助读者更好地理解该领域的全貌。此外,论文精选了相关的数据集和基准测试,以便于实际应用和评估。最后,论文讨论了这一领域的主要挑战和机遇,强调统一多模态模型的研究仍处于初级阶段。论文希望本综述能成为推动统一多模态模型发展研究与创新的宝贵资源。

发布于: 2025-05-30阅读数: 3
用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
论文解读 - 统一的多模态理解和生成模型综述(下)_人工智能_合合技术团队_InfoQ写作社区