Meta 提出用向量检索来改进图像描述模型
出品人:Towhee 技术团队
作者:王翔宇 顾梦佳
随着深度神经网络的发展,自动图像描述技术取得了令人瞩目的进展。然而,现有的方法主要注重生成的描述与人类参考描述之间的相似性,却忽视了描述在实际应用中的特定目标。Meta FAIR 实验室一项最新研究提出了一种改进方法,通过引入判别性目标和强化学习,使得神经网络生成的图像描述更具信息量和可理解性,为实际应用带来了新的希望。
论文认为,图像描述的一个基本目标是正确地描述一个物体,使得听者能够将其与其他环境元素区分开来。为了实现这一目标,论文提出了一种使用强化学习的自监督判别通信目标来微调预训练的图像描述模型的方法。论文通过让图像描述模型与一个图像检索模型进行判别博弈来进行微调。
具体而言,给定一个目标图像,图像描述模型生成一段描述,而图像检索模型则使用这个描述从候选图像集合中选择出目标图像。这种微调方法不需要标注数据,且独立于底层的图像描述模型和图像检索模型。
该研究采用了一种称为 DiscriTune 的微调方法,通过强化学习,对预训练的图像描述模型进行微调,生成的描述作为输入传递给一个固定的判别器。判别器的任务是在一组干扰图像中找到原始图像。通过这种微调方法,模型逐渐学会生成更具辨识度和可区分性的描述,更好地传达图像的特征和内容。
研究团队使用了两种不同的图像描述模型进行实验:ClipCap 和 BLIP。ClipCap 是一个基于 GPT-2 模型的图像条件模型,它使用一个可训练的映射网络将图像的视觉特征与 GPT-2 嵌入空间进行关联,从而生成图像描述。BLIP 是一个由文本 Transformer 和视觉 Transformer 组成的大型图像描述模型,它通过跨模态注意力机制将视觉信息引入到生成的描述中。这些模型经过微调后,生成的描述更具信息量和可理解性。
为了评估改进方法的效果,研究团队还使用了一个神经检索模型 CLIP 来进行实验。CLIP 是一个多模态双编码器模型,通过对比损失最大化文本和图像之间的相似性。通过计算描述与图像之间的匹配分数,可以判断图像是否被正确检索出来。
在优化过程中,由于解码过程具有离散性,无法直接使用损失函数进行端到端的反向传播。因此,研究团队采用了强化学习中的 REINFORCE 算法来优化图像描述模型。通过计算匹配分数的奖励作为反馈信号,模型逐步调整生成的描述,以最大化目标图像的匹配分数。
这个表格里列了一些重要结果。ClipCap 和 DiscriTune 在从包含 100 个候选图像的集合中检索目标图像时的准确率(P@1),这些图像来自于 COCO、Conceptual Captions 和 Concadida 测试集以及 nocaps 验证集。可以看出来 DiscriTune 能带来较大的收益。
相关资料:
🌟全托管 Milvus SaaS/PaaS 即将上线,由 Zilliz 原厂打造!覆盖阿里云、百度智能云、腾讯云、金山云。目前已支持申请试用,企业用户 PoC 申请或其他商务合作请联系 business@zilliz.com。
如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。
欢迎关注微信公众号“Zilliz”,了解最新资讯。
评论