写点什么

LLaVA:将视觉微调引入大模型

作者:Zilliz
  • 2023-07-21
    北京
  • 本文字数:957 字

    阅读完需:约 3 分钟

大型语言模型(LLM)已经展现出了强大的能力,例如 ChatGPT 和 GPT-4 等的成功表示 LLM 能够遵循人类指令,成为通用助手的通用接口。这些 LLM 通过语言明确地表示各种任务指令,并引导端到端训练的神经助手在解决不同任务时进行切换。但目前这些模型主要还是以文本形式进行任务处理,其接口与用户指令的交互性和适应性还有待提高。

然而,如果将多模态与 LLM 结合,将会迎来更加灵活的交互。多模态视觉与语言指令的结合将打破现有模型的限制,让大型语言模型能够不仅仅通过描述图像内容来解决任务,而是通过视觉与语言指令的共同作用,更加智能地应对多样的现实世界任务。通过将视觉与语言指令结合,模型可以更好地理解人类意图,实现更加高效准确的交互。

LLaVA 的思路正是在这一背景下诞生的。作者提出了视觉指令微调的概念,旨在将指令微调扩展到多模态领域,为构建通用的视觉助手奠定基础。通过使用开源的 LLM 模型(LLaMA)和生成的多模态指令遵循数据,LLaVA 开发了一个大型多模态模型。

LLaVA 主要的目标是充分发挥预训练 LLM 和视觉模型的能力。网络架构如上图所示。它选择 LLaMA 作为 LLM,是因为 LLaMA 在一些开源的仅语言指令微调工作中已经展现出了其有效性。对于输入图像 Xv,使用预训练的 CLIP 视觉编码器 ViT-L/14 ,它提供了视觉特征 Zv = g(Xv)。实验中考虑了最后一个 Transformer 层前后的网格特征。作者采用简单的线性层将图像特征连接到词 embedding 空间。

在训练的时候,分为两个阶段进行训练。在第一个阶段,作者主要进行特征对齐的预训练。为了在概念覆盖和训练效率之间取得平衡,从 CC3M 数据集中筛选出了 595K 个图像-文本对,在冻结住 LLM 和 visual encoder 的情况下,主要让图像特征能够与 LLM 的特征进行对齐。在第二个阶段中,固定住视觉解码器,更新 LLM 的参数来训练,使用 ScienceQA 以及 158k 图文数据集。

最终作者证明了仅语言的 GPT-4 进行视觉指令微调的有效性。作者提出了一个自动化流程,用于创建语言-图像指令遵循数据,并基于此训练了 LLaVA,一种多模态模型,用于遵循人类意图完成视觉任务。该模型在对 ScienceQA 进行微调时达到了新的最先进准确率,并在对多模态聊天数据进行微调时提供了优秀的视觉对话体验。

相关资料:


用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
LLaVA:将视觉微调引入大模型_计算机视觉_Zilliz_InfoQ写作社区