文字识别:关键信息提取的 3 种探索方法
摘要: 如何通过深度学习模型来从文档图片中自动化地提取出关键信息成为一项亟待解决的挑战,受到学术界和工业界的广泛关注。
本文分享自华为云社区《技术综述十:文字识别之关键信息提取》,原文作者:小菜鸟 chg 。
深度学习模型已经在 OCR 领域,包括文本检测和文本识别任务,获得了巨大的成功。而从文档中提取关键信息(如图 1 所示),其作为 OCR 的下游任务,存在非常多的实际应用场景。使用人力来从这些文档中提取信息是重复且费时费力的。如何通过深度学习模型来从文档图片中自动化地提取出关键信息成为一项亟待解决的挑战,受到学术界和工业界的广泛关注。下面将对近期几篇相关文章进行简要介绍,并将其分为三个类别:基于栅格(grid-based)、基于图结构(graph-based)和端到端(end-to-end)。
1. 基于栅格的文档图片关键信息提取技术
该类方法基于图片像素点将图片转换为栅格表示向量,输入到深度学习网络中以学习提取关键信息。
1.1 Chargrid[1]
这篇文章指出文档中的文本间关系不仅受文本的序列顺序影响,还与文档中各文本的版式分布有关。为解决上述问题,作者提出 chargrid 方法,其将文档图片映射为一个字符级别的 2D 栅格表示,如图 2 所示。对于每一个字符栅格采用 one-hot 编码表示,整个图片的向量表示为\tilde{g} \in\mathbb{R}^{H×W×N_{c}}g~∈RH×W×Nc,其中 HH 和 WW 是图片的长和宽,N_{c}Nc是字符类别数。
图 2 chargrid 的文档表示
随后该向量表示作为 chargrid-net 的输入,基于 encoder-decoder 的 CNN 网络结构(如图 3 所示)进行关键信息的文本框检测和语义分割。整个网络由分割损失、边框分类和边框坐标回归三个部分组成的损失函数优化学习:{\mathcal{L}}_{total}={\mathcal{L}}_{seg}+{\mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}Ltotal=Lseg+Lboxmask+Lboxcoord。关键信息内容通过将分割类别属于同一类别的字符整合得到。
图 3 chargrid 模型架构
1.2 CUTIE[2]
这篇文章同样指出仅利用 NLP 技术是无法处理文档中各文本间的布局信息。因此作者设计了 CUTIE 方法,如图 4 所示,将文档图片映射为保留各文本空间位置关系的栅格向量表示,然后设计了两类 CNN 模型来进行关键信息题:CUTIE-A,采用高分辨率网络 HRNet 作为骨干网络;CUTIE-B,采用空洞卷积的 CNN 网络。整个模型由每个 box 的预测类别和真实类别间的交叉熵损失优化学习。
图 4 CUTIE 模型架构
2. 基于图结构的文档图片关键信息提取技术
基于图结构的方法是将文档图片看作是由文本切片(textsegment)组成的图结构,并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容。
2.1 GC-BiLSTM-CRF[3]
这篇文章指出传统 NER 方法 BiLSTM-CRF 无法利用文档图片中各文本切片间的布局信息。为解决上述问题,作者提出利用图卷积神经网络来学习文本切片的语义信息和布局信息。
图 5 图卷积神经网络学习文本切片的图向量表示
具体地,将文本切片看做点,将文本间关系看做边,来构造一个全连接图结构。利用图卷积神经网络来学习得到每个文本切片的图向量表示,如图 5 所示。
图 6 引入图向量表示的 BiLSTM-CRF
在得到文本切片的图向量表示后,将其与文本切片中每个文本 token 的 Word2Vec 向量拼接,输入到 BiLSTM-CRF 网络中进行文档图片的关键信息提取。整个模型由文本切片分类任务和 IOB 序列分类任务联合优化学习。
2.2 LayoutLM[4]
这篇文章指出预训练模型已经在 NLP 领域获得了巨大的成功,但是其缺乏对布局和版式信息的利用,从而不适用于文档图片关键信息提取任务。为解决上述问题,作者提出 LayoutLM 模型。
图 7 LayoutLM 模型架构
该模型以 BERT(NLP 领域非常强大的预训练模型)为骨干网络,为了利用布局和版式信息,引入了 2D 位置向量表示,即各文本切片的两点标注(左上角的横纵坐标和右下角的横纵坐标)分别通过横纵两个方向上的索引表得到的向量。同时可以选择性地加入切片的视觉向量表示以补充更多的信息。由于 BERT 本质上可被看做是一个全连接的图网络,因此我们将 LayoutLM 也归类于基于图结构的技术。后续出现了类似于 LayoutLM 的预训练模型如 Lambert[5]等,在文档图片关键信息提取任务上都取得了 SOTA 结构,证明了深度学习模型基于大语料和大模型的强大能力。
3.端到端的文档图片关键信息提取技术
端到端的方法,顾名思义,就是直接以原始图片作为输入得到文档的关键信息内容。
3.1 EATEN[6]
这篇文章指出,基于检测识别流程的信息提取技术会受到如轻微的位置偏移等带来的影响。为解决上述问题,作者提出 EATEN 方法,其直接从原始图片输入中提取出文档关键信息内容。
图 8 EATEN 模型架构
具体地,如图 8 的网络结构所示,EATAN 采用 CNN 骨干网络来提取得到文档图片的高层视觉信息,然后利用实体类别感知的注意力网络来学习实体布局信息,最后利用基于 LSTM 的解码器解码得到预设的实体内容。该模型由于直接从图片中得到文档关键信息,易于加速优化,便于边缘部署。
3.2 TRIE[7]
这篇文章指出,现有方法对关键信息提取都是将其作为多个独立的任务进行,即文字检测、文字识别和信息提取,彼此之间无法进行相互监督学习,因此作者提出一个端到端的网络模型 TRIE,同时对上述三个任务进行模型学习。
图 9 TRIE 模型架构
具体地,利用 ResNet+FPN 作为骨干网络,进行文字检测,然后利用检测网络+ROIAlign 的结果进行 attention+encoder-decoder 的文字识别,最后将文本位置信息、视觉信息、语义信息进行融合,通过 BiLSTM 来进行 IOB 标签分类得到文档关键信息。整个 TRIE 模型对三个任务(即文本检测、文本识别和信息提取)进行共同优化学习:\mathcal{L} ={\mathcal{L}}_{det}+{\lambda}_{recog} {\mathcal{L}}_{recog} +{\lambda}_{info}{\mathcal{L}}_{info}L=Ldet+λrecogLrecog+λinfoLinfo。
小结:
本文对 OCR 领域中文档图片的关键信息提取技术进行了简要介绍,将近期技术按模型分为基于栅格、基于图和端到端三种类别,对每个类别筛选了两篇论文进行了阐述。总的来说,基于大语料的预训练图模型展现出了巨大的实力,而端到端模型也存在不小的潜力。
参考文献:
[1]Katti, Anoop R., et al. “Chargrid: Towards Understanding 2D Documents.” EMNLP, 2018.
[2] Zhao, Xiaohui, et al. “Cutie: Learning tounderstand documents with convolutional universal text information extractor.” arXiv, 2019
[3] Liu, Xiaojing, et al. “Graph Convolution forMultimodal Information Extraction from Visually Rich Documents.” NAACL, 2019.
[4] Xu, Yiheng, et al. “Layoutlm: Pre-training of textand layout for document image understanding.” KDD,2020.
[5] Garncarek, Łukasz, et al. “LAMBERT:Layout-Aware language Modeling using BERT for information extraction.” arXiv, 2020
[6] Guo, He, et al. “Eaten: Entity-aware attention forsingle shot visual text extraction.” ICDAR, 2019.
[7] Zhang, Peng, et al. “TRIE: End-to-End Text Readingand Information Extraction for Document Understanding.”ACM MM, 2020.
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/7735dd9c138e8e8e8c2947d29】。文章转载请联系作者。
评论