写点什么

跟我读论文丨 Multi-Model Text Recognition Network

  • 2022 年 7 月 21 日
  • 本文字数:477 字

    阅读完需:约 2 分钟

跟我读论文丨Multi-Model Text Recognition Network

本文分享自华为云社区《Multi-Model Text Recognition Network》,作者:谷雨润一麦 。



语言模型经常被用于文字识别的后处理阶段,用来优化识别结果。但该先验信息是独立作用于识别器的输出,所以之前的方法并没有充分利用该信息。本文提出 MATRN,对语义特征和视觉特征之间进行跨模态的特征增强,从而提高识别性能。

方法



方法的流程图如上图所示,首先图片通过视觉提取器和位置注意力模块得到初步的文字识别结果。然后将该识别结果通过一个预训练好的语言模型,得到文字的语义特征。



接着通过上图左所示的模块,利用 transformer 进行视觉特征和语义特征的特征增强。最后利用如下公式,将视觉特征和语义特征进行特征融合,并进行最终的分类。



值得注意的是,有感于自监督的方法,本文也提出了一种在视觉特征图上加掩码的方法。具体来说,利用位置注意力模块中的注意力相应图,随机选择某个时刻的注意力权重作为掩码,mask 掉一部分视觉特征。

实验结果



从实验结果可以看出来,该方法在比较困难的不规则图像中有较大提升。这说明当模型很难从视觉上进行识别的时候,文字之间的语义特征有助于识别。


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 3
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
跟我读论文丨Multi-Model Text Recognition Network_人工智能_华为云开发者联盟_InfoQ写作社区