【AAAI 2024】MuLTI：高效视频与语言理解

2024-03-18
浙江
本文字数：5116 字
阅读完需：约 17 分钟

一、背景

1.1 多模态的发展

多模态理解模型具有广泛的应用，比如多标签分类（Classification）、视频问答（videoQA）和文本视频检索（Retrieval）等。现有的方法已经在视频和语言理解方面取得了重大进展，然而，他们仍然面临两个巨大的挑战：

1、在处理长序列时平衡计算效率和模型性能。

2、减少预训练和下游任务之间的领域差距。

多模态理解模型一般由三个模块组成：文本编码器（Text Encoder）、视频编码器（VIdeo Encoder）和特征融合模块（Feature Fusion）。后两者通常会导致较高的计算成本。

对于特征融合模块，很难做到既高效又有效。以前的一些工作，比如 VIOLET 和 Clover，它们直接连接视频和文本编码器的输出，然后由 Transformer 的 Encoder 进行特征融合，此时模型的计算复杂度和显存消耗与级联序列长度的平方成正比，当长文本与长视频输入到这些模型中时，特征融合所消耗的显存消耗会大幅度上升。为了减轻计算负担，一些工作如 ALPRO，FrozenBiLM，CLIPBert 在特征融合之前通过均值池化或 Class Token 的方式压缩视频特征，然而，在多模态融合之前将所有信息压缩到一个向量中可能会丢失重要的细节。一些工作如 Flamingo 采用 Sampler 和随机查询来进行有效的视频特征压缩，这种方法是次优的，可能会损害视频特征的完整性。基于上述分析，我们面临了一个难题：如果去压缩特征，容易导致特征的细节丢失；如果不压缩处理特征，特征融合的显存占用过大。此时，如何平衡模型的计算量和准确性是特征融合模块的挑战。

图1

如何将预训练与下游任务相结合也是一项挑战。以前的预训练框架通常应用四个典型的预训练任务：用于视频编码器优化的掩码帧建模（MVM）任务，用于文本编码器优化的掩码语言建模（MLM）任务，用于视频和文本编码器的联合优化的视频文本匹配（VTM）和视频文本比较（VTC）任务。在大规模视频文本数据集上进行预训练可以显著提高视频文本模型的性能。然而，现有的预训练任务和下游任务之间仍然存在领域差距，特别是在视频 QA 中。将 videoQA 引入预训练任务的困难在于构建合适的问答对。

1.2 模型的提出

为了应对这些挑战，我们像图 1（d）一样设计 MuLTI。它具有用于序列压缩和多模态融合的文本引导多路采样器（Text-Guided MultiWay-Sampler）。现有的方法如 Flamingo，通常使用可学习的查询向量（Query）通过采样器对视频特征进行采样。随机初始化的查询向量可能会丢弃重要的原始特征信息，从而导致性能下降。我们在文本引导多路采样器中设计了一种轻量级的自适应池方法，通过计算每个序列块的重要性来获得压缩特征。然后，我们将压缩特征添加到采样特征中，并使用短文本特征对长视频特征进行采样和融合。我们共享了采样器与特征融合模块的注意力权重，并为采样器中的不同模态保留不同的前馈网络。

图 1 显示，以前的模型（a）和（b）通过其冗长的级联特征融合消耗了大量的 GPU 内存。（b）和（c）都压缩视频特征，这是一种常见的选择，因为与文本相比，它们的长度更大。然而，由于视频特征中的信息丰富，过度压缩可能会损害性能。相反，我们设计了类似于（d）的 MuLTI，并引入了文本引导的多路采样器来有效地压缩文本特征以进行融合。由于文本更简洁准确，我们使用精简的文本来指导视频特征采样，从而提高了性能。

为了减少视频 QA 中预训练任务和下游任务之间的领域差距，我们引入了一种新的预训练任务——多选建模（Multiple Choice Modeling，MCM）并基于 WebVid2M 与 CC3M 数据集进行了预训练。MCM 可以通过在大规模视频文本数据集上构建多项选择题回答任务来弥合预训练任务和下游任务之间的任务差距。它要求模型从随机构建的集合中找到与视频最匹配的文本描述，这增强了视频和文本编码器的表示能力以及视频和文本特征之间的对齐。

我们提出了 MuLTI，这是一个高度准确和内存高效的视频和语言框架，它通过特征采样和注意力模块实现了高效和有效的特征融合。
我们提出了一种文本引导多路采样器（Text-Guided MultiWay-Sampler）来对长序列特征进行采样，并促进视频和文本特征之间的交互，从而降低内存成本并提高性能。
我们设计了一种新的预训练任务，称为多选建模（MCM），以建好预训练和下游任务之间的任务差距。在七个英语任务和一个汉语多标签分类任务上的实验结果证明了 MuLTI 的有效性。

二、模型结构

2.1 视觉与文本编码器

2.2 特征融合模块

图2

多模态融合模块的核心是 Text-Guided MultiWay-Sampler，如图 2（b）所示。多路采样器由 Transformer 的 Decoder 修改而来。具体而言，我们设计多路采样器模块来有效地压缩文本特征并融合不同的模态特征。

2.3 不同型号的 MuLTI

在本节中，我们考虑在有足够资源的情况下实现更高的性能。我们首先将视频编码器从 VIT-B/16 替换为 VIT-L/14，并将文本编码器从 Bert-Base 替换为 Bert-Large。然后，我们得到 MuLTI-L。此外，为了满足有限资源的训练要求，我们将视频编码器从 VIT-B/16 替换为 VIT-B/32，并将文本编码器从 12 层减少到 6 层。不同模型的浮点运算（FLOPs）、参数（Params）和每秒帧数（FPS）显示在表 1。

表1

三、模型的预训练

我们使用四个目标对 MuLTI 进行预训练，包括三个经典的目标：Masked Language Modeling （MLM），Video Text Matching（VTM），and Video Text Comparison（VTC）。在本节中，我们重点介绍我们提出的一种新技术：Multiple Choice Modeling（MCM）。

尽管 MLM、VTC、VTM 已经证明了它们在学习视频和文本表示方面的有效性，但预训练任务和下游任务（如视频问答）之间仍然存在很大的领域差距。将视频问答引入预训练任务的难点在于如何构建合适的问答对。选择题是视频问答的常见形式。受多项选择题的启发，我们发现原始配对视频文本描述是自然正确的答案。在这个基础上，我们引入了 Multiple Choice Modeling（MCM），这是一种新的预训练任务，提高了模型对视频问答题的敏感性。具体来说，它的结构如下，这是一个四选择题。

"[CLS]<Question> ? [SEP] Option 1: <Answer 1>. [SEP] Option 2: <Answer 2>. [SEP] Option 3: <Answer 3>. [SEP] Option 4: <Answer 4>."

复制代码

我们将正确的描述随机放入

中，并通过文本语料库获取正确描述以外的答案。问题也有多种选择，如"What does this picture describe?"，"What does this video describe?"，"What can we learn from the video?"等。 MCM 不需要大量额外的手动注释或大量的数据预处理，这是一种高效且可扩展的解决方案。 MCM 的动机是加强模型对 videoQA 任务的敏感性。由于 MCM 可以提高模型从文本中提取视频相关内容的能力，这也提高了模型在文本视频检索任务上的性能。

考虑到 MLM、VTM 和 VTC 的有效性，我们还采用它们进行预训练。MLM 以 15% 的概率随机屏蔽输入标记，并用 [MASK] 替换它们，之后根据视频和文本预测屏蔽的文本标记。VTC 将匹配的视频文本对视为正对，将批次中的其他视频文本对视为负对。VTM 与 VTC 非常相似，它预测视频和文本描述是否相互匹配。 VTM 需要通过特征融合模块来融合特征，基于交叉熵损失而不是对比损失来训练分类任务。MuLTI 的整体预训练目标是：

四、实验

4.1 实现细节

i、预训练数据集

ii、下游任务与数据集

在视频问答方向，MuLTI 模型在五个广泛使用的开放视频 QA 任务上进行了评估：

MSRVTT-QA 基于 MSRVTT 的视频和字幕。该数据集有 10k 个视频，其中有 243k 个问答对，该数据集中有 1.5k 个候选答案。
MSVD-QA 基于 MSVD 的视频和文本描述。该数据集有 1970 个视频，其中有 50k 个问答对，该数据集中有 2423 个候选答案。
TGIF-QA 要求模型了解 GIF 视频的细节，以回答有关它们的问题。在 TGIF-QA 中，TGIF Action 和 TGIF Transition 是多项选择任务，而 TGIF Frame 是一项开放式视频 QA 任务。

在文本视频检索方向，MuLTI 模型在两个广泛使用 Retrieval 任务上进行了评估：

MSRVTT 包含来自 YouTube 的 10K 个视频和 200K 个注释。我们遵循 VIOLET，使用 9k 视频进行培训，使用 1k 视频进行测试。
DiDeMo 包含来自 Flickr 的 10K 个视频，其中有 40K 个注释。我们遵循 CLIPBERT 并将同一视频中的所有注释连接到标题中。

还有一个中文的多标签分类数据集：

视频标签是在线广告排名模型所需的重要特征，我们构建了一个大规模的内部多标签短视频数据集，其中包含 486k 个短视频，486k 个文本字幕和 21696 个标签。每个视频文本对有多个标签。标签由来自短视频推荐平台的多位专业编辑进行交叉检查。我们还应用了一个在 icdar 挑战中具有最高性能的端到端文本检测仪，为每一帧生成 OCR。每帧 OCR 拼接后截断为 512。

4.2 建议方法的性能比较

表2 MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA

表 2 比较了 MuLTI 与现有方法在七个常用的公共数据集上的表现。

在视频问答任务中，MuLTI 在 MSRVTT-QA、MSVD-QA、TGIF-Action、TGIF-Transition 和 TGIF-Frames 等数据集上超过了所有已经发表的基线模型。表格中 FrozenBILM 的结果是没有使用 Speech 的。总的来说，MuLTI 在各种 QA 任务中实现了最先进的性能。

在文本-视频检索任务中，最有竞争力的文本-视频检索方法是基于 CLIP 的 Vision Transformer 和 BERT 在 400M 文本-图像对上的预训练。然而，尽管使用较少的预训练数据，MuLTI 在两个基准任务上仍然具有很强的竞争力。值得注意的是，在使用 DSL 进行后处理后，MuLTI 的性能优于 CAMoE、QB-Norm 和 TS2-Net。

表3

表 3 比较了 MuLTI 与现有方法在多标签数据集上的表现。

对于多标签分类，我们将 multi 与 VIOLET 和 ALPRO 进行了比较，但排除了 FrozenBiLM，因为其尺寸不适合在线部署。VIOLET 和 ALPRO 不使用 OCR，因为它们会导致 V100 GPU 内存不足。为了进行公平的比较，我们还在表 3 中报告了 MuLTI 的无 OCR 的性能；MuLTI 显著超过 VIOLET 和 ALPRO。

图3

如图所示，当训练期间帧计数增加时，MuLTI 保持的视频内存成本不到 ALPRO 和 VIOLET 的一半，因为其高效的融合模块最大限度地减少了内存成本的增加。

表4 TGMS代表Text-Guided MultiWay-Sampler，PB代表Pretraining Baseline，MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA，MSRR代表MSRVTT-Ret

最后，我们在表 4 中评估了我们的主要技术贡献。与基线模型相比，我们的主要技术贡献提高了所有数据集的性能。文本引导多路采样器增强了 MuLTI 的多模式融合能力，精确定位多余视频功能中的关键细节。MCM 提高了模型的对齐能力，缩小了预训练和下游任务之间的差距。

4.3 消融实验

i、文本引导多路采样器的重要性

表5 MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA

图4 F代表Flatten，E代表Encoder，D代表Decoder，S代表Sampler

我们在表 5 中比较了不同聚合方法的性能。结果表明，Flatten 优于其他聚合方法，但需要大量的视频内存。在模型结构的分析中，我们得知部分解码器在长序列中使用的内存比编码器少。虽然它可以很好地处理像 MSRVTT-QA 这样的数据集。然而，但在处理长文本和视频时，成本仍然很高。具体内存成本如图 4 所示。

表6 CV代表压缩视频特征，CT代表压缩文本特征，SS代表Shared-Sampler，AP代表Adapt- Pooling

Flamingo 使用基于解码器的采样器浓缩视频特征，这是次优的。文本特征更密集、更语义。通过使用文本查询来过滤冗余，语言指导对于从视频表示中提取有用信息是必要的。表 6 比较了不同的压缩方法，显示了文本压缩的优越性。

采样器和特征融合模块使用相同的解码器结构，可以在不影响性能的情况下共享权重，简化了模型优化。我们共享采样器和解码器的自注意力权重，但为每个模态保留单独的 FFN，在保持性能的同时减少参数。与 Flatten 方法相比，Shared-Sampler 在 MSRVTT-QA 和 MSVD-QA 上的精度分别提高了 0.32%和 1.45%。

如表 6 所示，采样器在压缩文本和视频特征时会导致较差的性能。采样器的随机查询向量具有丢失原始关键特征的风险；我们设计了一个轻量级的聚合模块 Adapt-Pooling，以保留原有的功能。如表 6 所示，Adapt-Pooling 提高了 MSRVTT-QA 和 MSVD-QA 的准确性。此外，我们探索了各种组合方法（添加、连接和相乘）都只有轻微的性能差异，在 MSRVTT-QA 上使用连接和相乘分别获得了 45.51%和 45.45%的准确率。

为了验证这些技术的鲁棒性，我们将其 Shared-Sampler 和 Adapt-Pooling 应用于压缩视频特征，这也提高了性能。

ii、Multiple Choice Modeling 的重要性

表7 PB代表Pretraining Baseline，MSRQ代表MSRVTT-QA，MSVQ代表MSVD-QA，MSRR代表MSRVTT-Ret

MCM 旨在通过将视频 QA 集成到预训练中来弥合预训练和下游任务之间的差距，增强模型对视频和句子主题的关注，以更好地提取多模式特征。

我们使用经典的 MLM、VTM 和 VTC 任务来预训练模型作为基线。由于 MVM 会导致视频内容损坏，与其他任务发生冲突，在我们最初尝试将 MVM 包括在预训练中时，我们观察到性能下降，如表 7 所示。因此，我们决定不使用 MVM 进行预训练。为了证实 MCM 的鲁棒性，我们还在使用 MVM 的基础上添加了 MCM 进行预训练。结果表明，MCM 仍然显著提高了模型的性能。与用基线预训练的模型相比，MCM 通过缩小预训练和下游任务之间的任务差距，显着提高了模型在视频 QA 任务上的性能。MCM 对多模态特征对齐的促进提高了模型的检索任务性能。如表 7 所示，用 MCM 预训练的模型在视频 QA 和检索任务中都优于基线，证明了其有效性。

五、未来工作

1、在 Audio 上进行探索，引入音频信息提升性能。

2、进一步降低模型中的计算量最大的 VIT 的 FLOPs 与显存占用。

3、优化蒸馏模型模型，保证性能不损失的情况下降低 VIT 的 FLOPs 与显存占用。

● 论文标题：

MuLTI: Efficient Video-and-Language Understanding

● 论文作者：

刘波、陈云阔、程孟力、徐家琪、施兴

● 论文 PDF 链接：

https://arxiv.org/abs/2303.05707

发布于: 刚刚阅读数: 4

阿里云大数据AI技术

关注

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

发布

暂无评论

创作场景