写点什么

常用的表格检测识别方法 - 表格区域检测方法(下)

  • 2023-05-19
    上海
  • 本文字数:3603 字

    阅读完需:约 12 分钟

常用的表格检测识别方法 - 表格区域检测方法(下)

——书接上文


Training

半监督网络的训练分两步进行:a)对标记数据独立训练学生模块,由教师模块生成伪标签;b)结合两个模块的训练,得到最终的预测结果。


伪标签框架



实验


数据集:

TableBank 是文档分析领域中用于表识别问题的第二大数据集。该数据集有 417,000 个通过 arXiv 数据库爬虫过程注释。该数据集具有来自三类文档图像的表格:LaTeX 图像(253,817)、Word 图像(163,417),以及两者的组合(417,234)。它还包括一个用于识别表格的结构的数据集。在论文的实验中,只使用进行表检测的数据。

PubLayNet 是一个大型公共数据集,训练集中有 335,703 张图像,验证集中有 11,240 张图像,测试集中有 11,405 张图像。它包括注释,如多边形分割和图形的边界框,列出标题、表格和来自研究论文和文章的图像文本。使用 coco 分析技术对该数据集进行了评估。在实验中,作者只使用了 86,460 个表注释中的 102,514 个。

DocBank 是一个包含 5000 多个带注释的文档图像的大型数据集,旨在训练和评估诸如文本分类、实体识别和关系提取等任务。它包括标题、作者姓名、隶属关系、摘要、正文等方面的注释。

ICDAR-19:表检测和识别(cTDaR)竞赛于 2019 年由 ICDAR 组织。对于表格检测任务(TRACKA),在比赛中引入了两个新的数据集(现代和历史数据集)。为了与之前的最先进的方法进行直接比较,实验提供了在 IoU 阈值范围为 0.5-0.9 的现代数据集上的结果。

 

实验设置细节:


实验使用在 ImageNet 数据集上预先训练的 ResNet-50 为主干的可变形 DETR 作为检测框架,以评估半监督方法的有效性。在 PubLayNet、ICDAR-19、DocBank 和 TableBank 的三类数据集上进行训练。实验使用 10%、30%和 50%的标记数据,其余的作为未标记数据。伪标记的阈值设置为 0.7。将所有实验的训练周期设置为 150,在第 120 期的学习率降低了 0.1 倍。应用强增强作为水平翻转,调整大小,去除斑块,裁剪,灰度和高斯模糊。实验使用水平翻转来应用弱增强。可变形 DETR 解码器输入的 query 数的值 N 被设置为 30,因为它能给出最好的结果。除非另有说明,实验都使用 mAP(AP50:95)度量来评估结果。

实验结果讨论:


TableBank:

实验提供了对不同比例的标签数据的表库数据集的所有分割的实验结果。还比较了基于 transformer 的半监督方法与以前的基于深度学习的监督和半监督方法。此外,实验给出了 10%标记数据的 TableBank-both 数据集在所有 IoU 阈值下的结果。表 1 提供了半监督方法在 TableBank-latex, TableBank-word, 和 TableBank-both 数据集,分别 10%、30%和 50%标记数据时的实验结果。它表明,在 10%标记数据时,TableBank-both 数据集的 AP50 值最高,为 95.8%,TableBank-latex 为 93.5%,TableBank-word 有 92.5%。



表格的半监督学习的定性分析如图 5 所示。图 5 的(b)部分有一个与行和列结构相似的矩阵,网络将该矩阵检测为一个表格,给出 false positive 检测结果。在这里,不正确的检测结果表明网络不能提供正确的表格区域检测。表 2 给出了这种半监督方法对 10%标签数据上的所有数据集的不同 IoU 阈值的结果。在 TableBank10%标记数据集上使用不同的 ResNet-50 骨干的半监督网络的准确率、召回率和 f1-score 的可视化比较如图 6 所示。





与以前的监督方法和半监督方法的比较


表 3 比较了 ResNet-50 主干上基于深度学习的监督网络和半监督网络。还将在 10%、30%和 50%TableBank-both 数据集标签数据上训练的监督可变形 DETR 与使用可变形 transformer 的半监督方法进行了比较。结果表明,基于 attention 机制的半监督方法使用候选生成过程和后处理步骤,如非最大抑制(NMS),取得了可观的结果。



PubLayNet:

实验讨论了在 PubLayNet 表类数据集上对不同标记数据百分比的实验结果。还比较了基于 transformer 的半监督方法与以前的基于深度学习的监督和半监督方法。此外,实验给出了 10%标记数据的 PubLayNet 数据集上的所有 IoU 阈值的结果。表 4 提供了半监督方法的结果,该方法对 PubLayNet 表类数据使用可变形 transformer 来处理标记数据的不同百分比。在这里,10%、30%和 50%的标记数据的 AP50 值分别为 98.5%、98.8%和 98.8%



此外,半监督网络在 10%的标记的 PubLayNet 数据集上,在不同的 IoU 阈值上进行训练。表 5 给出了半监督方法对 10%标记数据上的 PubLayNet 表类的不同 IoU 阈值的结果。在 PubLayNet 表类的 10%标记数据集上,在不同的 IoU 阈值上使用具有 ResNet-50 主干的可变形 transformer 网络的半监督网络的准确率、召回率和 f1-score 的可视化比较如图 6(b)所示。这里,蓝色表示不同 IoU 阈值的准确率结果,红色表示不同 IoU 阈值的召回结果,绿色表示对不同 IoU 阈值的 f1-score 结果。



与以前的监督方法和半监督方法的比较


表 6 比较了使用 ResNet-50 骨干网的 PubLayNet 表类上基于深度学习的监督网络和半监督网络。还比较了在 10%、30%和 50%的 PubLayNet 表类标签数据上训练的有监督的可变形 detr 与使用可变形 transformer 的半监督方法。它表明,半监督方法不使用候选和后处理步骤,如非最大抑制(NMS),提供了有竞争力的结果。



DocBank:


实验讨论了在 DocBank 数据集上的不同标签百分比数据的实验结果。在表 7 中比较了基于 transformer 的半监督方法与以前的基于 cnn 的半监督方法。



此外,还比较了表 8 中对不同比例的标记数据的半监督方法与之前针对不同数据集的表格检测和文档分析方法。虽然不能直接比较作者的半监督方法与以前的监督文档分析方法。然而,可以观察到,即使有 50%的标签数据,作者也获得了与以前的监督方法类似的结果。


 ICDAR-19:

实验还评估了在 Modern Track A 数据集上的表格检测方法。作者总结了该方法在不同百分比的标签数据下的定量结果,并将其与表 9 中以前的监督表格检测方法进行了比较。在更高的 IoU 阈值 0.8 和 0.9 下评估结果。为了与以前的表格检测方法进行直接比较,作者还在 100%的标签数据上评估了论文的方法。论文方法在 100%标签数据的 IoU 阈值上获得了 92.6%的准确率和 91.3%的召回率。



消融实验:


伪标记置信阈值


阈值(称为置信阈值)在决定生成的伪标签的准确性和数量之间的平衡方面起着重要的作用。随着这个阈值的增加,通过过滤器的样本将会更少,但它们的质量将会更高。相反,较小的阈值将导致更多的样本通过,但 false positive 的可能性更高。从 0.5 到 0.9 的各种阈值的影响如表 10 所示。根据计算结果,确定最优阈值为 0.7。



可学习 query 数量的影响


在分析中,作者研究了改变作为可变形 DETR 解码器中输入的 query 数量的影响。图 7 通过改变作为可变形 DETR 解码器中输入的对象 query 的数量来比较预测结果。当 query 数 N 设置为 30 时,达到最佳性能;偏离此值会导致性能下降。表 11 显示并分析了不同对象 query 数量的结果。为 N 选择一个较小的值可能会导致模型无法识别特定的对象,从而对其性能产生负面影响。另一方面,选择一个较大的 N 值可能会导致模型由于过拟合而表现不佳,因为它会错误地将某些区域分类为对象。此外,在师生模块中,该半监督自注意机制的训练复杂度依赖于对象 query 的数量,并通过最小化对象 query 的数量来降低复杂度而得到提高。



结论


本文介绍了一种利用可变形 transformer 对文档图像进行表格检测的半监督方法。该方法通过将伪标签生成框架集成到一个简化的机制中,减轻了对大规模注释数据的需要,并简化了该过程。同时生成伪标签产生了一个被称为“飞轮效应”的动态过程,随着训练的进行,一个模型不断改进另一个模型产生的伪边框。在该框架中,使用两个不同的模块学生和教师,对伪类标签和伪边界框进行了改进。这些模块通过 EMA 功能相互更新,以提供精确的分类和边界框预测。结果表明,当应用于 TableBank 和 PubLayNet 训练数据的 10%、30%和 50%时,该方法的性能超过了监督模型的性能。此外,当对 PubLayNet 的 10%标记数据进行训练时,该模型的性能与当前基于 cnn 的半监督基线相比较。在未来,作者的目标是研究标记数据的比例对最终性能的影响,并开发出以最小数量的标记数据有效运行的模型。此外,作者还打算采用基于 transformer 的半监督学习机制来进行表结构识别任务。

 

参考文献:

Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022

S A Siddiqui , M I Malik,S Agne , A Dengel and S Ahmed. DeCNT: Deep Deformable CNN for Table Detection. in IEEE Access, vol.6, pp.74151-74161, [DOI: 10.1109/ACCESS.2018.2880211]

T Shehzadi, K A Hashmi, D Stricker, M Liwicki , and M Z Afzal.Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer.arXiv:2305.02769v2 [cs.CV] 7 May 2023

用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
常用的表格检测识别方法 - 表格区域检测方法(下)_人工智能_合合技术团队_InfoQ写作社区