图像检索(image retrieval)
实例级图像检索是一个可视化搜索任务,目标是给定一个查询图像,在一个可能非常大的图像数据库中检索包含与查询图像有着相同对象实例的所有图像。图像检索和其他相关的可视化搜索任务具有广泛的应用,如 web 上的逆向图像搜索或个人照片收藏的组织。图像检索也被视为数据驱动方法的一个关键组件,这些方法使用可视化搜索将与检索图像关联的注释传输到查询图像(Torralba et al, 2008)。这已被证明对各种各样的注释都很有用,如图像级标签(Makadia et al,2008)、GPS 坐标(Hays and Efros, 2008)或显著物体位置(Rodriguez- Serrano et al,2015)。
深度学习,尤其是深度卷积神经网络(Deep convolutional neural networks, CNN),已经成为计算机视觉领域一个极其强大的工具。在 Krizhevsky et al(2012)使用卷积神经网络在 2012 年的 ImageNet 分类和定位的挑战(Russakovsky et al,2015)上获得第一名后,基于深度学习的方法显著提高了在目标检测等其他任务(Girshick et al,2014)和语义分割(Long et al,2015)的最新效果。最近,它们也在其他语义任务中发光发热,比如 image captioning (Frome et al, 2013; Karpathy et al, 2014) 和 visual question answering (Antol et al, 2015)。然而,到目前为止,深度学习在实例级图像检索方面还不太成功。在大多数检索基准,深度方法比依赖于局部描述符匹配和使用详尽空间验证 (Mikul ́ık et al, 2010; Tolias et al, 2015; Tolias and J ́egou, 2015; Li et al, 2015)进行重新排序的传统方法效果差。
大多数深度检索方法使用网络作为局部特征提取器,利用在大型图像分类数据集(如 ImageNet)上预先训练的模型(Deng et al, 2009),并且只专注于在这些特征之上设计适合图像检索的图像表征。人们已经做出了一些贡献,使得深层架构能够准确地表示不同大小和长宽比的输入图像 (Babenko and Lempit- sky, 2015; Kalantidis et al, 2016; Tolias et al, 2016) 或解决基于 CNN 的特征缺乏几何不变性的问题(Gong et al, 2014; Razavian et al, 2014)。在此,我们认为,以往基于深度架构的图像检索方法无法取得良好效果的主要原因之一是缺乏针对实例级图像检索的具体任务的监督学习。
在这项工作中,我们集中在学习适合用于检索任务的表征这个问题上。不同于那些被学习来区分不同语义类别的特征,这些特征对于类内的变化来说是稳健的,在这里我们感兴趣的是区分特定的物体,即使它们属于相同的语义类别(如区分白马和黑马,语义类别都为马)。我们提出了一个解决方案,结合了一个为检索任务定制的表征和一个明确目标检索的训练过程。
对于表征,我们在卷积(R-MAC)描述符的区域最大激活 (Tolias et al, 2016)上构建。该方法对不同尺度下的多个图像区域计算基于 CNN 的描述子,并将其聚合成固定长度的紧凑特征向量,因此具有较好的缩放和平移鲁棒性。该方法的一个优点是,它可以编码高分辨率的图像,并不扭曲其长宽比。然而,在最初的形式中,R-MAC 描述符使用了一个在 ImageNet 上预先训练好的 CNN,我们认为这是次优的。在我们的工作中,我们注意到 R-MAC 管道的所有步骤都可以集成到一个单独的 CNN 中,我们建议以端到端的方式学习它的权值,因为它的计算所涉及的所有步骤都是可微的(就是打算自己训练一个 CNN)。
在训练过程中,我们使用了一个包含三个 streams 和使用 triplet loss 的 siamese 网络,它明确地优化了网络的权值,以产生非常适合检索任务的表征(即训练新的 CNN 的方法)。此外,我们还提出学习 R-MAC 描述符的池化机制。在 Tolias 等人(2016)的原始架构中,一个 rigid 的网格决定了被池化的区域的位置,这些区域将产生最终的图像级描述符。在这里,我们建议显式学习如何使用区域推荐网络选择给定的图像内容的这些区域位置(即在网络中加上一个 RPN 网络,用于定位)。该训练过程产生了一种新的结构,它能够在一次前向传递中将一张图像编码成一个紧凑的固定长度的向量。然后可以使用 dot-product 对不同图像的表征进行比较。最后,我们提出了一种将不同分辨率的信息编码为单个描述符的方法。输入图像首先以不同的尺度调整大小,然后组合它们的表征,产生一个多分辨率描述符,这个方法将显著改善结果。
学习我们表征的权值需要适当的训练数据。为了实现这一目标,我们利用了 Babenko 等人(2014)的公共地标数据集,它与 Babenko 等人(2014)所示的标准实例级检索基准保持了良好的一致性,它的图像是通过使用几个著名地标的名称查询图像搜索引擎来检索得到的。我们建议对这个数据集进行清理,它可以自动丢弃大量错误标记的图像,并在不需要进一步注释或人工干预的情况下估计地标位置。
一项关于四种标准图像检索基准的广泛实验研究定量地评估了我们每一项贡献的影响。我们还展示了将我们的表征与查询扩展(query expansion)和数据库端特征增强相结合的效果,以及使用乘积量化进行压缩的影响。最终,我们得到的结果在很大程度上超越了所有数据集上的最新的效果,不仅与每个图像使用一个全局表征的方法对比, 而且还与更昂贵的与我们的方法不同的方法对比,其还需要进行后续匹配阶段或几何验证。
评论