别忘记我:通过局部 - 全局内容建模进行文本擦除方法
本文简要介绍了发表于 ECCV 2022 的论文“Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context”的相关工作。该论文针对文本擦除中存在的复杂背景修复的问题,提出了 CTRNet,它利用局部和全局的语义建模提升模型的背景还原能力,它设计了 Low-level Contextual Guidance(LCG)和 High-level Contextual Guidance(HCG)去挖掘不同的语义表征,然后通过 Local-Global Content Modeling(LGCM)进行局部与全局的特征建模,从而提升文本擦除的能力。
一、研究背景
文本擦除在近几年得到了越来越多的关注,这项技术在隐私保护、视觉信息翻译和图片内容编辑等方面都有着很重要的作用;而且在教育、办公领域,文本擦除可以用于文档还原。因此,文字擦除不仅仅是给自然场景中的文字打上马赛克这样简单,而是要考虑在擦掉文字的同时保持文本区域背景的原特征,这就为这个任务带来了挑战。目前已有的工作如 EraseNet[1],PERT[2], MTRNet++[3]等都是直接通过 image-to-image 的方式,它们对复杂文本背景的恢复效果并不是非常好,前景与背景经常存在明显的差异。本文受到 Image Inainting 领域相关工作[4][5]的启发,提出了一个通过挖掘不同语义表征去指引文本擦除的模型 CTRNet,它设计了两种不同的语义表征,并通过局部-全局的特征建模提升了模型的性能。
二、方法介绍
本文提出了一个全新的两阶段文本擦除网络 CTRNet,它设计了两种不同的语义表征作为擦除指引,其中文本图像的 Structure 作为 Low-level Contextual Guidance,而深层语义特征作为 High-level Contextual Guidance;得到两种表征后,再通过 Local- Global Content Modeling(LGCM)进行局部与全局的特征建模,最终再通过解码器得到最终的擦除结果。CTRNet 的流程图如图 1 所示。
图 1 CTRNet 整体结构流程图
图 2 数据示意图
2.1 文本感知分支与 Soft Mask
CTRNet 是一个两阶段的模型,即先进行文本检测得到文本位置,然后再根据检测结果对图片中各个文本进行擦除。该模型使用的是 PAN [6]进行文本检测,在实现过程中,PAN 会和整个擦除网络一起进行优化。此外,考虑到常规的 0-1 Mask(Hard Mask)会在前景与背景的边界有明显的不连续问题,我们提出在训练和前向的过程中用 Soft Mask 代替原本的 Hard Mask。示意图如图 2(b),(c)所示。
2.2 Low-level Contextual Guidance(LCG)
图 3
2.3 High-level Contextual Guidance
除了 Low-level 的结构语义先验外,我们还加入了 HCG。在图像翻译以及图像修复的任务中,Perceptual/Style Loss 验证了高层语义监督的有效性,因此我们认为这些语义可以作为额外的先验直接用于特征的解码与最终结果的生成,于是便在 CTRNet 中结合了一个 HCG 模块去学习并利用高层的语义特征。
2.4 Local-global Content Modeling (LGCM)
当模型进行文本擦除并合成相应背景的时候,除了参考本身的文本区域内容外,还需要利用区域周围以及整图各部分的信息作为参考。结合 CNN 提取局部特征的能力以及 Transformer 的全局建模能力,本文设计了 LGCM 模块,结构如图 3(b)所示。其中 CNN block 进行下采样,而后 Transformer-Encoder 则是捕获全局像素之间的长距离关联,最后再通过上采样得到最终建模后的特征。此外 LGCM 模块还通过 SPADE 操作(图 1 中的 Incor)结合了 HCG 得到的高层语义特征作为先验。
如图 1 所示,LGCM 是一个迭代式的结构,CTRNet 一共级联了 8 个 LGCM 模块。最终得到的特征用于解码得到最后的文本擦除结果。
2.5 损失函数
Perceptual/Style Loss
Adversarial Loss
三、实验
实验主要是在 SCUT-EnsText 以及 SCUT-Syn 两个公开数据集上进行。此外本文还采集了一个 In-house 的试卷数据集进行实验验证 CTRNet 的泛化性。
A. 对于各模块的消融实验结果如表 1 所示,可视化对比如图 4 所示
表 1
图 4
B. 与之前 SOTA 方法的对比实验结果如表 2 与图 5 所示—SCUT-EnsText
表 2
图 5
C. 与之前 SOTA 方法的对比实验结果如表 3 与图 6 所示—SCUT-Syn
表 3
图 6
D. 此外,还进行了与一些 Image Inpainting 方法的对比,结果如表 4 和图 7 所示
表 4
图 7
E.还在 in-house 手写试卷数据集上验证了 CTRNet 的有效性,如图 8 所示。
图 8
四、总结与讨论
本文针对文本擦除中复杂背景的恢复问题提出了 CTRNet,通过设计了两种不同形式的监督使得模型能学习到不同的语义表征,然后通过一个 LGCM 模块进行局部全局的特征建模并有效结合学习到的语义表征,以此在解码的时候能同时利用文本区域和整图其他区域的信息并恢复更加自然、合理的文本背景。在各个数据集上的实验也验证了该模型的有效性。
五、相关资源
论文地址:https://link.springer.com/chapter/10.1007/978-3-031-19815-1_24
代码地址:https://github.com/lcy0604/CTRNet
六、参考文献
[1] Liu, Chongyu, et al. "EraseNet: End-to-end text removal in the wild." IEEE Transactions on Image Processing 29 (2020): 8760-8775.
[2] Wang, Yuxin, et al. "PERT: A Progressively Region-based Network for Scene Text Removal."arXiv preprint arXiv:2106.13029 (2021).
[3] Tursun, Osman, et al. "MTRNet++: One-stage mask-based scene text eraser."Computer Vision and Image Understanding 201 (2020): 103066.
[4] Liu, Hongyu, et al. "Rethinking image inpainting via a mutual encoder-decoder with feature equalizations."European Conference on Computer Vision. Springer, Cham, 2020.
[5] Ren, Yurui, et al. "Structureflow: Image inpainting via structure-aware appearance flow."Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[6] Wang, Wenhai, et al. "Efficient and accurate arbitrary-shaped text detection with pixel aggregation network." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[7] Xu, Li, et al. "Structure extraction from texture via relative total variation."ACM transactions on graphics (TOG) 31.6 (2012): 1-10.
[8] Zhang, Wendong, et al. "Context-aware image inpainting with learned semantic priors."Proceedings of the International Joint Conference on Artificial Intelligence, 2021.
原文作者: Chongyu Liu, Lianwen Jin, Yuliang Liu, Canjie Luo, Bangdong Chen, Fengjun Guo, and Kai Ding
版权声明: 本文为 InfoQ 作者【合合技术团队】的原创文章。
原文链接:【http://xie.infoq.cn/article/1255ee49b89bbabe487cc4522】。文章转载请联系作者。
评论