表格检测识别技术面临的挑战和发展趋势
第四章表格检测识别技术面临的挑战和发展趋势
现在表格区域检测的准确率已经很高了。但检测和识别是相辅相成的,单独的检测不够完善。如何利用检测和结构识别的结果互相提高效果,是未来的研究方向和重点。
由于表格应用场景较为广泛,表格形式多种多样,文档图像质量参差不齐,表格结构识别仍存在着较大的挑战。具体表现为:(1)表格线的检测和分割。有些表格是有线表,需要检测出水平和垂直的线条,并将它们分割成单元格。有些表格是无线表,需要根据文本对齐或空白区域来划分单元格。有些表格是少线表,需要结合线条和文本信息来确定单元格边界。(2)表格单元格的合并和拆分。有些表格中存在跨行或跨列甚至跨页的单元格,需要识别出它们的合并范围,并将它们恢复成标准的单元格。有些表格中存在多个文本内容共享一个单元格的情况,需要根据文本格式或语义来拆分它们成多个单元格。(3)表格内容的识别和解析。有些表格中包含了图像、公式、符号等非文本内容,需要将它们转换成文本或者保留它们的格式。有些表格中包含了缩写、引用、注释等特殊内容,需要将它们还原成完整的内容或者提取它们的来源。(4)表格结构的表示和输出。不同的应用场景可能需要不同的表格结构表示方式,例如 HTML、JSON、CSV 等。需要将表格结构识别的结果转换成适合目标应用的格式,并保留表格中的数据和样式信息。(5)表格线未对齐带来的行列判定困难;(6)表格嵌套(某些小表格是大表格的单元格)带来的识别困难;(7)一些非常规的表格线标注形式;(8)现实场景带来的扭曲、褶皱和光照等问题。
表格内容识别与理解是自然语言处理领域的一个重要方向,随着自然语言模型的进步和发展,研究者们可以处理更多的信息形式,不仅仅是 1 维的文本,还包括表格、票据等(半)结构化的文档。但是,由于表格的多样性和专业性,目前研究者们还面临着几大难题:(1)表格信息的表示方式没有统一的标准,不同类型的表格有着不同的结构特征,很难建立一个通用的表格信息识别框架,目前的大部分研究还只针对某些特定的表格数据进行性能提升;(2)对于以内容为导向的表格任务,例如查询、问答和文本生成等,由于表格数据通常涉及各个领域的专业知识且表格中的语义不明确,数据的标注工作很困难且成本很高,训练出的模型泛化能力较弱。(3)表格内容的语义理解。表格内容通常包含了数字、符号、缩写、公式等非自然语言的元素,需要对它们进行正确的解释和转换。同时,表格内容也可能存在一些隐含的语义关系,例如因果、比较、推理等,需要对它们进行正确的抽取和表示。(4)表格内容的上下文关联。表格内容通常不是孤立存在的,而是与其他文档或知识库有着一定的联系。例如,表格可能出现在文章、报告、网页等文档中,需要结合文档的主题、目的、结构等信息来理解表格的含义和作用。或者,表格可能涉及到某个领域或领域的专业知识,需要结合知识库的概念、属性、关系等信息来理解表格的内容和背景。(5)表格内容的多模态融合。表格内容不仅仅是文本信息,还可能包含图像、音频、视频等多种模态的信息。例如,表格可能包含图标、图片、视频等视觉元素,需要结合视觉信息来理解表格的展示和说明。或者,表格可能包含语音、音乐、声效等听觉元素,需要结合听觉信息来理解表格的描述和情感。
表格内容识别与理解是自然语言处理领域的一个快速发展的方向,但是目前还没有一个大规模的预训练模型能够很好地处理表格结构和表格生成等任务。目前常用的方法大多都是基于已有的语言模型进行改造,虽然这类方法在某些特定问题上可能有效,但是往往难以迁移到其他表格内容识别相关的任务上。因此,如何设计并构建一个针对表格结构的大规模预训练模型,或者一个能够在顺序文本、结构化文本和场景文本等多种文档形式上都有好的表现的预训练语言模型,是该领域目前面临的一个重要挑战和研究方向。
从整体趋势来看,一方面表格内容识别的任务具有实用性的特点,新的任务和新的应用场景不断涌现,显示出了很高的应用价值,相关的任务类型和覆盖的领域也趋于细化,出现了很多专门针对具体问题的方法和模型;另一方面,表格内容识别也具有理论性的意义,研究者们对于基础模型的构建具有很高的研究兴趣,一些与表格内容识别相关的方法已经显示出了很高的泛化能力,能适用于序列文本、结构化文本和场景文本等不同类型的对象。在抽象层次,寻求构建泛化性更强的基于文档的表征模型,探索更加通用的方法来描述、理解和处理表格信息,也是未来的研究热点之一。
为了克服上述的困难和挑战,表格检测和识别技术的发展趋势如下:利用深度学习方法,尤其是语义分割模型,实现端到端的表格检测和识别。利用多任务学习和注意力机制,提高表格结构和内容的识别精度。利用弱监督或无监督的方法,减少标注成本和提高泛化能力。利用多模态信息,例如文本、图像、声音等,提高表格信息的理解和利用。利用异构文档图像(如扫描文档、PDF 和具有复杂布局、大空格或几何失真的图像)开发更稳健、更准确的表格检测和结构识别方法。利用图神经网络和注意力机制将表结构建模为图,并对单元格关联进行分类。
参考文献:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022
版权声明: 本文为 InfoQ 作者【合合技术团队】的原创文章。
原文链接:【http://xie.infoq.cn/article/a0a8abc124bc9a7fb42fc666a】。文章转载请联系作者。
评论