写点什么

论文解读丨 LayoutLM: 面向文档理解的文本与版面预训练

  • 2021 年 11 月 18 日
  • 本文字数:3062 字

    阅读完需:约 10 分钟

​​摘要:LayoutLM 模型利用大规模无标注文档数据集进行文本与版面的联合预训练,在多个下游的文档理解任务上取得了领先的结果。

 

本文分享自华为云社区《论文解读系列二十五:LayoutLM: 面向文档理解的文本与版面预训练》,作者: 松轩。



1. 引言

  

文档理解或文档智能在当今社会有着广泛的用途。如图 1 所示的商业文档中记录有丰富、具体的信息,同时也呈现着复杂多变的版式结构,因此如何准确地理解这些文档是一个极具挑战性的任务。在本文之前,基于模型的文档理解有着如下两点不足: (1) 针对具体场景,采用人工标注数据进行端到端的有监督训练,没有利用大规模的无标注数据,且模型难以泛化至其他版式或场景;(2)利用 CV 或 NLP 领域的预训练模型进行特征提取,没有考虑文本与版面信息的联合训练。


图 1. 不同版面与格式的商业文档扫描图像

针对上述不足,微软亚研院的研究者们提出了如图 2 所示的 LayoutLM 模型 [1],利用大规模无标注文档数据集进行文本与版面的联合预训练,在多个下游的文档理解任务上取得了领先的结果。具体地,LayoutLM 模型很大程度上借鉴了 BERT 模型 [2]。在模型输入层面,LayoutLM 在 BERT 采用的文本与位置特征基础上,新增了两个特征:(1)2-D 位置特征,也就是文档版面特征;(2)文档图像全局特征与单词级别特征,采用了 Faster R-CNN [3] 的 ROI 特征。在学习目标层面,采用了掩码视觉语言模型(Masked Visual-Language Model, MVLM)损失与多标签文档分类(Multi-label Document Classification,MDC)损失进行多任务学习。在训练数据层面,LayoutLM 在 IIT-CDIP Test Collection 1.0 [4] 数据集的约一千一百万张的扫描文档图像上进行预训练,该数据集包含信件、备忘录、电子邮件、表格、票据等各式各样的文档类型。文档图像的文本内容与位置信息通过开源的 Tesseract [5] 引擎进行获取。


图 2. LayoutLM 模型结构示意图

2. LayoutLM

2.1 模型结构

  

LayoutLM 在 BERT 模型结构基础上,新增了两个输入特征:2-D 位置特征与图像特征。

  

2-D 位置特征:2-D 位置特征的目的在于编码文档中的相对空间位置关系。一个文档可视为一个坐标系统,其左上角即为坐标原点(0,0)(0,0)。对于一个单词,其包围盒能够以坐标(x_0,y_0,x_1,y_1)(x0​,y0​,x1​,y1​)进行表示,其中 (x_0,y_0)(x0​,y0​) 表示左上角坐标,(x_1,y_1)(x1​,y1​)表示右下角坐标。x_0x0​与 x_1x1​共享嵌入层参数 XX,y_0y0​与 y_1y1​共享嵌入层参数 YY。特别地,整个文档图像的包围盒为(0,0,W,H)(0,0,W,H),WW 与 HH 分别表示文档图像的宽与高。

  

图像特征:根据单词的包围盒,LayoutLM 利用 ROI 操作从 FasterR-CNN 的输出特征图中生成图像区域特征,与单词一一对应。对于特殊的[CLS]标记([CLS]标记的输出接分类层,用于文档分类任务,详情可见 BERT 模型),则采用整图的平均特征作为该标记的图像特征。应该注意的是,LayoutLM 在预训练阶段并没有采用图像特征;图像特征仅在下游任务阶段可以选择性地加入,而生成图像特征的 Faster R-CNN 模型权重来自于预训练模型且不作调整。

2.2 LayoutLM 预训练

  

预训练任务 #1:掩码视觉语言模型 MVLM。在预训练阶段,随机掩盖掉一些单词的文本信息,但仍保留其位置信息,然后训练模型根据语境去预测被掩盖掉的单词。通过该任务,模型能够学会理解上下文语境并利用 2-D 位置信息,从而连接视觉与语言这两个模态。

  

预训练任务 #2:多标签文档分类 MDC。文档理解的许多任务需要文档级别的表征。由于 IIT-CDIP 数据中的每个文档图像都包含多个标签,LayoutLM 利用这些标签进行有监督的文档分类任务,以令[CLS]标记输出更为有效的文档级别的表征。但是,对于更大规模的数据集,这些标签并非总可获取,因此该任务仅为可选项,并且实际上在后续的 LayoutLMv2 中被舍弃。

2.3 LayoutLM 模型微调

  

在该论文中,预训练的 LayoutLM 模型在三个文档理解任务上进行模型微调,包括表格理解、票据理解以及文档分类,分别采用了 FUNSD、SROIE 以及 RVL-CDIP 数据集。对于表格与票据理解任务,模型为每个输入位置进行{B, I, E, S, O}序列标记预测,从而检测每个类别的实体。对于文档分类任务,模型利用[CLS]标记的输出特征进行类别预测。

3. 实验

  

LayoutLM 模型与 BERT 模型具有一致的 Transformer [6] 网络结构,因此采用 BERT 模型的权重进行初始化。具体地,BASE 模型为 12 层的 Transformer,每层包含 768 个隐含单元与 12 个注意力头,共有 113M 参数;LARGE 模型为 24 层的 Transformer,每层包含 1024 个隐含单元与 16 个注意力头,共有 343M 参数。具体的训练细节与参数设定请参见论文。

  

表格理解。表格 1 与表格 2 展示了 LayoutLM 在表格理解数据集 FUNSD 上的实验结果,包含不同模型、不同训练数据量、不同训练时长、不同预训练任务等多种设定。首先,可以看到,引入了视觉信息的 LayoutLM 模型在精度上取得了大幅度的提升。其次,更多的训练数据、更长的训练时间、更大的模型能够有效地提升模型精度。最后,MDC 预训练任务在数据量为 1M 与 11M 时具有相反效果,大数据量情况下仅用 MVLM 效果更优。

  

此外,原论文作者还对比了 LayoutLM 模型不同初始化方式对于下游任务的影响,如表格 3 所示。可以看到,利用 RoBERTa(A Robustly Optimized BERT)模型参数进行初始化,相比于利用原始 BERT 模型参数进行初始化,能够一定程度提升 LayoutLM 模型在下游任务上的精度。


表 1. FUNSD 数据集上的准确率

表 2. 不同训练数据量与训练时长的 LayoutLM BASE 模型(Text + Layout, MVLM)在 FUNSD 数据集上的准确率


表 3. 不同初始化方式的 LayoutLM 模型(Text + Layout, MVLM)在 FUNSD 数据集上的准确率

票据理解。表格 4 展示了 LayoutLM 在票据理解数据集 SROIE 上的实验结果。可以看到,LayoutLM LARGE 模型的结果优于当时 SROIE 竞赛榜单第一名的结果。


表 4. SROIE 数据集上的准确率

文档图像分类。表格 5 展示了 LayoutLM 在文档图像分类数据集 RVL-CDIP 上的实验结果。同样地,可以看到,LayoutLM 取得了领先的结果。


表 5. RVL-CDIP 数据集上的分类准确率

4. 小结

  

本文介绍的 LayoutLM 模型利用大规模无标注文档数据集进行文本与版面的联合预训练,在多个下游的文档理解任务上取得了领先的结果。论文作者指出,更大规模的数据集与模型、在预训练阶段考虑图像特征是下一步的研究方向。


[1] Xu Y, Li M, Cui L, et al. LayoutLM: Pre-training of text andlayout for document image understanding. Proceedings of the 26th ACM SIGKDDInternational Conference on Knowledge Discovery & Data Mining. 2020:1192-1200.

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training ofdeep bidirectional transformers for language understanding. Proceedings ofNAACL-HLT. 2019: 4171-4186.

[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towardsreal-time object detection with region proposal networks. Advances in neuralinformation processing systems, 2015, 28: 91-99.

[4] Lewis D, Agam G, Argamon S, et al. Building a testcollection for complex document information processing. Proceedings of the 29thannual international ACM SIGIR conference on Research and development ininformation retrieval. 2006: 665-666.

[5] https://github.com/tesseract-ocr/tesseract

[6] Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need. Advances in neural information processing systems.2017: 5998-6008.


想了解更多的 AI 技术干货,欢迎上华为云的 AI 专区,目前有 AI 编程 Python 等六大实战营供大家免费学习。


点击关注,第一时间了解华为云新鲜技术~

发布于: 2 小时前阅读数: 6
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
论文解读丨LayoutLM: 面向文档理解的文本与版面预训练