写点什么

发掘非结构化数据价值:AI 在文档理解领域的现状与未来

作者:Baihai IDP
  • 2024-03-28
    湖南
  • 本文字数:4147 字

    阅读完需:约 14 分钟

发掘非结构化数据价值:AI 在文档理解领域的现状与未来

编者按: 在当今这个由数据主导的时代,我们被海量多样的信息所环绕,但大部分数据都以非结构化的形式存在,诸如文档、电子邮件、合同等,这使得从中提取有价值的信息成为一大挑战。

幸运的是,AI 领域正在悄然孕育一场革命性变革,它将帮助我们攻克长期以来困扰非结构化数据处理的种种困难。

这篇文章首先解释了文档理解场景面临的主要挑战——需要处理文本、图像等多模态信息,并理解它们之间的逻辑关联。接着介绍了 DocLLM 和 DocGraphLM 等创新模型,它们融合了语言模型与图神经网络等技术的优势,能够更好地理解文档的结构和语义信息。基于此,文档分析的自动化程度将大幅提高,为商业智能(BI)、企业合规管理等领域带来全新机遇。更有趣的是,结合对话系统和面向任务的 Agents,则能实现真正的"端到端"文档处理流程自动化。


作者 | Anthony Alcaraz


编译 | 岳扬


我们正站在人工智能新时代的风口上。在过去的一年里,生成模型的快速发展令人瞠目结舌。从能够使用 DALL-E 3 生成极富想象力的图像,到使用 ChatGPT 生成言辞优美、表达流畅、富有感染力的文章,这些模型展示出这段时间人工智能技术取得的巨大进步。


然而,在更专业的人工智能领域——文档理解,也在悄然发生着同样深刻的变化,尽管这种变化并不那么轰动。这一领域的最新进展有望实现自动推理非结构化企业数据中的大量信息,或将进一步推动人类生产力的发展、提质。


据估计,超过 80% 的潜在可用业务信息存储在扫描文档、表格、合同、电子邮件和其他非结构化数据源(unstructured data sources)中。 这是一笔惊人的知识财富。然而,计算机在处理这些信息时,缺乏人类所具备的直觉和对细节的理解能力。


当今最优秀的人工智能系统能够以相当高的准确率识别日期、名称和金额等信息。但是,对于概念之间层次关系的深层语义把握、基于证据进行逻辑推理,以及其他处理非结构化数据时将会面临的复杂情况和难题,目前仍然是一大挑战,需要进一步突破。


例如,通过交叉引用交易截止日期(due date)并将其与单独的付款通知文件(payment advice documents)关联起来,从发票中推断出付款日期(payment dates),这需要考虑到文档的相关背景,而不仅仅是简单地依据其中的某个信息。解决财务记录中的存在的不一致或矛盾之处,或针对商业活动或业务运营方面的问题或需求所提出的询问也需要如此。


能够最终破解这些难题的关键创新技术已经问世 —— 这些模型将强大的处理自然语言的神经网络模型(neural language foundations)与利用 Graphical and spatial encoding(译者注:这种方法用于将文档结构和内容以图形化或空间化的方式编码成计算机可以理解和处理的形式。)理解文档结构的能力相结合。


语言模型对文本媒介(textual mediums)的掌握,再与处理图像和音频的架构进步相结合,为文档分析(document analysis)领域的突破性应用奠定了基础,这些应用有望极大地提高人类的生产效率。



Generated by Dall-E-3

01 利用技术手段从文档中获取有用的信息或知识

文档理解的主要挑战在于,与结构化数据不同,文档中既包含了复杂的视觉元素,如表格、图表等,又包含了自然语言的文字描述,且文字排列方式灵活自然,不受严格的结构限制。 人类的推理能力可以轻松地处理这些错综复杂的信息,但计算机却很难复制人类这种能力。

1.1 理解文档中的视觉元素如何排列和组织

与纯文本不同,文档使用诸如表格、图表、页眉和页脚之类的视觉结构来传达信息之间的联系。要推理出这些关系,就需要分析页面上各元素的 positioning(译者注:元素在页面上的位置)、proximity(译者注:元素之间的接近程度或距离) 和 bounding boxes(译者注:围绕元素的边界框,用于确定元素在页面上的位置和范围),而不仅仅是单独处理文本。


例如,将数值(values)与表头(table headers)相匹配,将侧边栏中的文本与相关部分链接起来,理解文档中各部分的排列顺序,以及在多页文档中各部分之间的逻辑关系和信息传递流程。上述挑战都需要对文档的整体组织结构和布局格式进行深入分析。

1.2 理解文件中语言的组织、表达方式

文档中语言表达的自由性和灵活性会给理解和处理文档带来挑战。复杂的语法、双重否定、讽刺、零散的文本、领域术语等都需要根据上下文进行理解。


预训练语言模型已经可以很好地理解语言中存在的细微差别。但是,要可靠地解释合同、财务报告或医疗记录中的独特语言模式,针对特定领域的文档进行微调是必不可少的。

1.3 将文档中各部分逻辑关系联系起来

最后,在处理大量数据或信息时,进行推理、分析和判断的过程比较复杂,且极具挑战性。这些文件包含一些相互关联但没有明确联系的信息。分析财务文件并能够发现潜在的支付欺诈行为,并确定相关的联系,需要从多个来源聚合证据片段建立逻辑线索。这仍然是一个长期存在的障碍。

02 新一代文档处理人工智能模型的涌现

可供学习的资料:


1.https://arxiv.org/abs/2401.00908


2.https://arxiv.org/abs/2401.02823

2.1 具备强大语言理解和处理能力的基础模型

DocLLM 和 DocGraphLM(来自摩根大通)都建立在先进的神经语言模型之上,利用其丰富的语言知识和文本理解能力。


具体而言,DocLLM 通过将文档的空间布局结构信息融入自注意力机制的计算过程中,对基于标准 Transformer 架构的大语言模型进行了扩展和增强。


与此同时,DocGraphLM 将图神经网络(graph neural networks)与预训练的语言模型嵌入相融合,实现了对文本语义和结构语义的统一表征和建模。


因此,它们既保留了基础模型的语义分析优势,同时通过对模型进行增强或改进,使其能够更好地适应文档处理的需求和特点。

2.2 对文档中的组织结构、排版方式、段落布局等方面进行理解和分析

这些模型的一个主要区别在于,它们各自采用了不同的技术方案来处理文档中的组织结构、排版布局、段落安排等视觉结构信息:


DocLLM 引入了一种解耦的空间注意力机制(disentangled spatial attention mechanism),允许在 Transformer 框架中对文本内容和文档空间布局结构信息这两种不同的数据模态并行建模。


另一方面,DocGraphLM 则以图的形式清晰地表示文档的结构和内容,将文本段落映射为图的节点,并捕获它们之间的空间关系。


因此,一个模型采用了 Transformer 方法,另一个模型使用了图形化方式来表示或呈现语义信息 —— 两种方法都被证明是有效的。

2.3 进行模型预训练时所设定的目标或任务

这两个模型都使用适用于文档的自监督学习目标(Self-supervised objectives)进行预训练:


DocLLM 的训练任务包括填充和屏蔽文本块,以便在 generative modeling (生成式模型的构建)过程中处理不规则的文档布局。


DocGraphLM 通过学习如何预测缺失的连接以重构完整的图形结构以将文档结构转换成一个向量或者一种表示形式,以便模型能够更好地理解文档的组织结构和关系。


预训练推动了多模态文档理解能力的发展。

03 文档分析领域可能出现的新机遇

语言模型对文本媒介的强大理解和处理能力,加上多模态理解方面的架构进步,为文档分析领域的突破性应用奠定了基础:

3.1 利用自动化技术从文档中提取信息并进行标注

在大多数企业中,通过人力进行信息提取仍然是主流做法。但人工智能有望通过检测文档中的实体、实体之间的关系和文档中可能存在的层次结构(entities, relationships and hierarchies),自动完成高达 50-60% 的标注工作。这将极大地提升分析师的生产力,并推动下游的分析工作。

3.2 通过引入新技术、方法或数据源等,使得 BI 系统具有更强大的功能

将文档理解功能直接嵌入到 BI 系统中,可以使某些信息得以被发现或理解。销售报告可以将交易记录联系起来,展现的竞争对手情报可以将市场份额的变化与产品发布等联系起来。

3.3 提供工具、流程、指导或技术解决方案,以确保运营活动合规

分析法律合同实现合规风险的评估,为财务审计中某个论断或主张提供可信的证据或支持并协助调查等,这些都是 BI 能够为法律团队和合规团队带来较大帮助的领域。

04 自动化任务或流程之后进行的后续处理步骤

虽然 RAG 核心系统专注于检索和生成这一机制,但还可以集成额外的后处理模块,以实现自动化任务(automated task)的完成。这有助于 RAG 模型在实际业务工作流程中的运用。

4.1 Conversational Agents

通过将 RAG 系统置于具有对话管理的对话框架(conversational framework)中,它们可以成为企业助手,实现文档理解的自动化。该 Agent 负责处理交互 —— 理解用户的意图、对信息传递过程进行引导或管理,并在整个对话过程中保持上下文(context)。

4.2 面向任务的 Agents

除了能够与用户进行对话外,面向任务的对话型 Agents 可以指导 RAG 系统完成下游任务。例如,Agents 可以将文档理解结果解释为所需的数据格式,当某些条件满足时,系统会自动发送通知,通知相关人员进行人工审查或审核,添加新的数据、修改已有的数据或者进行其他类型的更新,或使用 API 集成执行决策。

4.3 强化学习

为了优化与 RAG 系统进行交互的自动化 Agents ,可以使用强化学习逐步改进决策策略,以便根据文档理解结果采取行动。Agents 可学习如何采取一系列有效的行动,以达到特定的业务目标或实现某些任务。

05 对人工智能发展的整体趋势和影响进行更深入的思考和讨论 The Bigger Picture

随着人工智能的迅速发展,将非结构化的文本和图像转化为结构化知识,将使其分析能力在短时间内也会产生巨大的进步。将对文档所提供信息的完整理解与由结构化数据驱动的分析框架相结合,很可能会发生很多有趣的事情!


它预示着一场通过即时获取信息和利用技术或工具自动执行日常性的智力任务来提高人类生产力的革命即将到来。但是,负责任的发展要求在进步速度加快的同时,也要确保决策和行为的公平性、透明度和责任性。


因此,虽然生成模型的进步不断登上媒体头条,但变革性的变化往往在静谧的角落中悄然酝酿,然后爆发出来。而 document AI 可能很快就会从那星星之火转变为熊熊烈火,照亮人工智能下一个时代的道路。


Thanks for reading!


————


Anthony Alcaraz


Chief AI Officer & Architect : Builder of Neuro-Symbolic AI Systems @Fribl enhanced GenAI for HR


END


本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。


原文链接:


https://ai.plainenglish.io/the-coming-revolution-in-document-understanding-70e8b037e4c2

发布于: 2024-03-28阅读数: 13
用户头像

Baihai IDP

关注

还未添加个人签名 2021-08-31 加入

IDP(Intelligent Development Platform)是面向数据科学家和算法工程师的新一代AI开发生产平台,便捷、高效数据科学家对数据接入与探索、模型开发、调试、训练和模型发布的需求。

评论

发布
暂无评论
发掘非结构化数据价值:AI 在文档理解领域的现状与未来_程序员_Baihai IDP_InfoQ写作社区