带你读 AI 论文：SDMG-R 结构化提取—无限版式小票场景应用

关注

发布于: 3 小时前

摘要：在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法，在通用性方面、未见过版式模板数据方面，效果都不好；为此，本文提出了一种端到端的空间多模态图推理模型（SDMG-R），能有效的从未见过的模板数据中提取关键信息，并且通用性更好。

本文分享自华为云社区《论文解读系列十二：SDMG-R结构化提取—无限版式小票场景应用》，作者：一笑倾城。

源码：https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc

1、背景

在文档图像中提取关键信息在办公自动化应用中至关重要，比如常见的存档文件、收据小票、信用表单等数据场景快速自动化归档、合规性检查等等。传统基于模板匹配或者规则的方法，主要利用的固定版式模板数据的布局、位置坐标信息、内容规则等，这些信息局限性很强，因此在通用性方面、未见过版式模板数据方面，效果都不好。为此，本文提出了一种端到端的空间多模态图推理模型（SDMG-R），能充分利用检测文本区域的位置布局、语义、视觉信息，相比之前获取的信息的更充分丰富，因此能有效的从未见过的模板数据中提取关键信息，并且通用性更好。

2、创新方法及亮点

2.1 数据

在之前的关键信息抽取任务中，常用的数据集大部分是 SROIE、IEHHR，但是他们训练集、测试集有很多公共模板版式，因此不太适合去评估或验证通用信息提取模型的通用能力；基于以上原因，本文构建一套新的关键信息抽取任务的数据集，并命名为 WildReceipt：由 25 个类别组成，大概有 50000 个文本区域，数据量是 SROIE 的两倍以上，详细信息如下表格 2-1 所示：

表 2-1 关键信息抽取任务数据集

2.2 创新点及贡献

本文提出的 SDMG-R 在 SROIE 数据集和 WildReceipt 数据集上都获得比较好的效果，并优于之前的方法模型。本文作者还去做了相关消融实验，并验证了本文提出的空间关系信息和多模态特征都对关键信息提取有着非常重要的影响。具体创新及贡献如下：

提出了一种有效的空间多模态图推理网络（SDMG-R），能充分利用文本区域的语义、视觉两个维度的空间特征关系信息；

构建了一套基准数据集（WildReceipt），是 SROIE 数据量的两倍，而且训练集版式模板和测试集版式模板交叉很少，因此可以用来做些通用关键信息抽取任务的探索研究；

本文利用了视觉、语义特征，如何利用好两者数据，本文做了相关验证：特征融合方法的有效性（CONCAT、线性求和、克罗内克积），最终结果克罗内克积比其他两种特征融合方法高两个点左右，如下表格 2-2 所示：

表 2-2 特征融合方法对比结果

3、网络结构

SDMG-R 模型整个网络结构如下图 3-1 所示，模型输入数据由图片、对应文本检测坐标区域、对应文本区域的文本内容，视觉特征通过 Unet 及 ROI-Pooling 进行提取，语义特征通过 Bi-LSTM 进行提取，然后多模态特征通过克罗内克积进行融合语义、视觉特征，然后再输入到空间多模态推理模型提取最终的节点特征，最后通过分类模块进行多分类任务