基于场景文字的多模态融合的图像分类

2022 年 4 月 27 日
本文字数：1794 字
阅读完需：约 6 分钟

图像分类任务是计算机视觉最为基础的任务之一。依靠目标的细粒度、具有区分性的视觉特征能够较好地区分通用目标。然而，对于部分细粒度的类别，仅仅依靠视觉特征难以区分不同类别。如图 1 展示了不同类别的瓶子或建筑物，瓶子类别的类内差异大（同一类别的样本可以属于塑料瓶或属于玻璃瓶），类间差异小（不同类别的样本具有相同形状等）。然而，目标上的文本信息足以区分类别类型。基于此，一些方法试图引入图像内的场景文本作为额外的信息来辅助图像分类任务。联合场景文本和图像视觉信息共同推理、分析图像内容，是多模态融合分析的重要问题之一。

不同类别的瓶子和建筑物

如图 2 所示，算法[1]融合图像的视觉特征和图像中的场景文本特征来联合分类。具体地，通过 GoogLeNet 提取图像的视觉特征。利用现有的 Word Spotting 算法识别出图像中潜在的场景文本实例。并将每个识别出的场景文本通过 Word2Vector 的方法，将场景文本实例转化为特征。然而，并不是每个文本实例都有助于识别该图像，因此，通过注意力模型，以图像特征作为信号，关注于和图像内容高度相关的文本实例特征。最后，对经过注意力模型的文本特征和视觉特征联合分析，分辨图像目标的类别。其注意力模型如图 3 所示，视觉特征和文本实例特征共同输入，计算出每个文本实例特征的权值，随后，用计算出的权值加权到文本特征中，得到加权后的文本特征。

方法[1]框架图

注意力模型结构

方法[1]的性能易受 Word Spotting 算法的影响，为缓解因场景文本识别错误而带来的分类错误，方法[2]提出图 4 的算法。该算法的基本框架和方法[1]基本类似，不同之处在于提取场景文本和表示。其基本思路为：通过高斯混合模型建模字典库内单词的表示，将预测到的文本表示通过学习到的高斯混合模型映射到已学习字典库的表示的最近邻点。具体地，在该方法中，通过单阶段检测器 YoLo 来密集预测图像中文本实例的 PHOC[4]表示，之后，通过已离线训练的高斯混合模型，将预测到的文本的 PHOC 向量映射到预定义字典的最近邻表示。以此，减少场景文本识别错误而带来的分类误差。

方法[2]框架图

方法[1][2]只考虑图像的全局信息，没有考虑图像的局部区分性特征。为此方法[3]不仅提取图像的场景文本特征，而且利用图像中的通用目标信息，联合通用目标和场景文本共同推理、分析图像内容。如图 5 所示，通过 ResNet152 提取图像的全局信息，Faster-RCNN 提取图像中的通用目标特征。之后，将通用目标特征和场景文本实例特征输入图卷积神经网络，推理分析出增强后的特征。将增强后的的特征和图像全局特征一起输入给分类器进行分类。

方法[3]框架图

从实验结果可以看出，通过引入场景文本和通用目标进行联合推理分析，算法整体的分类性能得到大幅度提升。以上方法充分说明将场景文本引入到图像分析中的必要性，除图像分类任务之外，场景文本所提供的信息能够有效用于 VQA，图像检索，Visual grounding 等任务之中。

Bai X, Yang M, Lyu P, et al. Integrating scene text and visual appearance for fine-grained image classification[J]. IEEE Access, 2018, 6: 66322-66335.Wang H, Bai X, Yang M, et al. Scene Text Retrieval via Joint Text Detection and Similarity Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4558-4567.
Mafla A, Dey S, Biten A F, et al. Fine-grained image classification and retrieval by combining visual and locally pooled textual features[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2020: 2950-2959.Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 9627-9636.
Mafla A, Dey S, Biten A F, et al. Multi-modal reasoning graph for scene-text based fine-grained image classification and retrieval[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021: 4023-4033.
Levenshtein V I. Binary codes capable of correcting deletions, insertions, and reversals[C]//Soviet physics doklady. 1966, 10(8): 707-710.

点击关注，第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 2

原文链接:【http://xie.infoq.cn/article/1e25d463b8cb0e6aae44d88c2】。文章转载请联系作者。