智能图像处理：基于边缘去除和迭代式内容矫正的复杂文档图像校正

2023-01-13
上海
本文字数：1771 字
阅读完需：约 6 分钟

本文简要介绍 ACM MM 2022 录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足，提出了一个新的矫正方法 Marior。Marior 采用渐进式的矫正方式来逐步提高矫正性能。具体而言：先利用分割结果进行环境边缘去除获得初步矫正结果，再通过预测偏移场迭代式地优化该初步结果。该方法在公开数据集上取得了 SOTA 的结果，矫正结果数据已开源。

图 1 现有矫正方法存在不足的情况. (a) 文档图像中存在大的环境边界 (b) 文档图像中不存在环境边界. 红色虚线高亮突出显示了部分形变的区域.

一、研究背景

对文档图像进行拍照经常受到透视形变和几何形变的干扰，这会影响文档图像的可读性和 OCR 系统的性能。现有基于深度学习的矫正方法主要关注于紧密裁剪的文档图像，而忽视存在大环境边界的文档图像和没有环境边界的文档图像（如图 1 所示），导致无法处理这类图像。最直接的方案是将所有这种情况包含在训练数据里面，但是发现效果并不理想。另一个解决方案是在矫正之前加入文档图像检测器将文档区域裁剪出来，但是对于没有环境边界的文档图像还是没办法解决。本文提出 Marior 用于解决该问题。其包含两个子模块：边界去除模块和迭代式内容矫正模块，边界去除模块先将所有情况的文档图像统一成去除环境边界的图像，内容矫正模块再专注于文档内容的矫正，以此将边界去除和内容矫正解耦开来，从而解决环境边界多样的情况，同时也能减轻网络的学习难度。

二、方法原理简述

图 2 整体流程图

2.1 边界去除模块（MRM）

Mask 预测：如图 3 所示。在 DeepLabv3+的基础上增加一个边缘输出分支更好地指导网络学习。此外，考虑到文档图像的 Mask 有相对固定的模式（一个完整的连通域，接近四边形，相对直的边缘等），本文利用 GAN 将这种先验引入到模型当中。

图 3 （a）Mask 预测网络的结构；（b）引入先验信息的效果，可以看到先验信息的引入可以获得更好的 Mask

2.2 迭代式内容矫正模块（ICRM）

图 5 （a）迭代式矫正模块（ICRM）的迭代方式；（b）迭代过程结束后的采样过程. 热力图的值表示偏移场的绝对值，即需要偏移的距离.

三、主要实验结果及可视化结果

表 1 Mask 预测模型有效性

表 2 内容加权的 L2 Loss 的有效性

表 3 在 DocUNet 数据集上的定量比较. 为公平比较，除 Marior 外，其余方法在 Origin 子集（没有经过紧密裁剪，仍含有大环境边界的文档图像）上测试时先加入了一个文档检测器进行裁剪.

表 4 在 OCR_REAL 数据集上的定量比较.

图 7 在 DocUNet 数据集上的定性比较.由上到下分别为 (a) Input, (b) DocProj, (c) DewarpNet, (d)Method of Xie et al., (e) Marior (ours), and (f) Scanned Ground Truth. 其中 1-3 列是紧密裁剪的文档图像，4-5 列是含有大环境边界的文档图像（除 Marior 外其余方法都先才采用检测器进行裁剪），6-7 列是不包含环境边界的文档图像.

图 8 与 PiecewiseUnwarp 和 DocTr 在 DocUNet 数据集上的定性比较. （a）从左到右分别为 Input, PiecewiseUnwarp, Marior (ours)和 Scanned Ground Truth. （b）从左到右分别为 Input, DocTr, Marior (Ours)和 Scanned Ground Truth.

图 9 从左到右分别为(a) Input, (b) DocProj, (c) DocTr, and (d) Marior (Ours).

从表 1 和表 2 消融实验可以看出 Mask 预测网络以及内容加权 L2 Loss 的有效性。从表 3 和表 4 可以看出，随着矫正渐进式地进行，矫正性能不断提高，证明本文方法中边界去除初步矫正、迭代式内容矫正的有效性。从表 3、图 7 和图 8 可以看出本文方法在紧密裁剪图像上与现有 SOTA 方法取得相当效果的同时，在其余环境边界情况下都能取得更好的效果（且不需要额外的检测器）。从表 4 和图 9 可以看到本文方法在取得好的矫正性能的同时在速度上也有优势。

四、总结及讨论

该论文创新性地提出了一种基于边缘去除和迭代式内容矫正的复杂文档图像校正，不仅在紧密裁剪文档图像上取得 SOTA 的矫正结果，还能处理含有大环境边界的文档图像以及不含环境边界的文档图像，填补了该领域在这方面的研究空白。

五、相关资源

Marior: Document Dewarping with Control Points Document Dewarping with Control Points 论文地址: https://arxiv.org/abs/2207.11515

Marior: Document Dewarping with Control Points Document Dewarping with Control Points 项目地址: https://github.com/ZZZHANG-jx/Marior

发布于: 刚刚阅读数: 3

原文链接:【http://xie.infoq.cn/article/38dd698ef82a0185ccca0c2c0】。文章转载请联系作者。

合合技术团队

关注

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下，于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累，具备专业的行业理解与技术成果。

发布

暂无评论

创作场景

智能图像处理：基于边缘去除和迭代式内容矫正的复杂文档图像校正

合合技术团队

评论