探究计算机视觉新兴能力:如何通过提示检索提高性能?
出品人:Towhee 技术团队 顾梦佳
由于其强大的泛化性能,在广泛数据上训练的大规模模型最近已成为计算机视觉中的主流架构。主要探索了大规模视觉模型中的一种新兴的能力,称为“in-context learning”。这种能力允许模型在未见过的任务上进行推断,并且不需要更新模型参数。研究发现,in-context examples(即“提示”)对于该能力的影响很大。为此,Visual Prompt Retrieval(视觉提示检索)框架提出自动选择 in-context examples。研究结果表明,这种方法可以比随机选择方法更好地提高视觉上下文学习的性能。
Prompt retrieval for visual in-context learning
提示检索框架包括无监督和有监督的两种方法。基于最近示例搜索的无监督提示检索方法使用现成的视觉模型提取图像特征,以便比较查询与每个训练示例之间的余弦距离。另一种有监督提示检索方法则直接训练神经网络,来选择能够最大化 in-context learning 性能的示例。其主要思想是计算每个源示例 in-context learning 的结果,并选择具有最高/最低结果的示例以形成用于对比学习的正/负集。这些方法可以根据需要自动选择提示,从而提高视觉 in-context learning 的性能。
相关资料:
评论