写点什么

文档抽取进入「说人话」时代:用 Prompt 就能提取发票、合同、简历的关键信息

  • 2025-07-09
    上海
  • 本文字数:2019 字

    阅读完需:约 7 分钟

文档抽取进入「说人话」时代:用Prompt就能提取发票、合同、简历的关键信息

随着 AI 时代的到来,尚未完全实现的数字化转型向我们提出了更严峻的考验:如何破解物理世界与数字系统、AI Agent 之间的认知断层?


根据《福布斯》技术委员会的研究,企业 80%的高价值数据仍封存于非结构化文档中,全球企业每年都要因手动处理发票、合同、报告产生代价高昂的效率损耗。在此情况下,文档抽取能力(将 PDF、图片、扫描件等非结构化文档中的信息自动提取并转化为结构化数据如 JSON)成为一项极其重要的基础能力,它将 PDF 扫描件、医疗影像报告、物流单据等“不可用数据”实时转化为可计算、可分析的燃料,重构数据价值链:


  • 例如,金融贷款/信用卡流程:改变人工核验方式,自动从身份证、收入证明、银行流水、税单中提取关键信息(姓名、ID、收入、支出、账户信息),加速审批流程。

  • 医疗健康:实现病历数字化与信息提取,从纸质或扫描病历、检验报告、影像报告中提取患者信息、诊断结果、用药记录、检查指标等,构建结构化电子健康档案。

  • 供应链与物流:自动识别和提取供应商发票、采购订单上的商品名称、数量、单价、总金额、税号、交货日期等,实现自动化对账和支付。


这些场景背后,是企业对非结构化数据自动化处理的刚需。文档抽取工具在前 AI 时期便已形成常规工作流程,让数据工程师能够通过工具调用,实现提取、后处理、数据库整合等操作。然而,当 LLM 应用普及化,技术门槛不断降低,传统工作流程的不便之处也日益明显。

常规文档抽取工具的工作流程与痛点


典型抽取工作流程首先要求详细的字段配置,对于信息量大的情况,还需进行复杂分组。



接着,如要处理输出数据格式,一般需要数据工程师编写后处理脚本,通过命令或代码来实现。


从文档中提取出来的原始文本通常是字符串,要满足特定格式要求,比如日期统一为YYYY-MM-DD, 金额去除货币符号并转为浮点数,电话号码添加国家代码,几乎都需要额外的处理步骤。


这些后处理逻辑需要编写代码(Python、JavaScript 等)或使用特定的脚本/表达式语言(如正则表达式、XPath、JSONPath)来实现。例如:


  • 用正则表达式(\d{4})-(\d{2})-(\d{2})匹配并重组日期。

  • 用字符串操作去除金额前的$符号,再用parseFloat()转换。

  • 用条件逻辑判断并添加电话号码的国家代码。


繁复的使用方式造成了当前抽取工具的痛点:


  1. 配置复杂耗时: 为每种新的文档类型(甚至同一类型不同供应商的变体)创建和维护详细的抽取规则(坐标、关键词、正则)是一项极其繁琐、技术性强且耗时的工作,需要专业的数据工程师或商业分析师投入大量精力。

  2. 技术门槛高: 熟练掌握正则表达式、坐标定位、可能需要的编程技能(用于后处理)对普通业务用户来说门槛太高,配置和维护通常依赖 IT 或专业团队。

  3. 字段变更/新增不灵活: 当业务需要新增一个抽取字段或修改现有字段的格式要求时,需要重新走一遍配置流程,不够敏捷。


而现在,应用 LLM 能力的新一代工具,让文档抽取只需一条清晰的自然语言指令——像对话一样描述需求,即可输出结构化 JSON 数据。业务人员不再需要付出高认知成本,就能便捷使用自动化工具。

AI 驱动抽取极简版


用户不再需要字段配置或复杂的正则表达式。取而代之的是,可以通过简洁的 prompt 告诉模型需要抽取什么信息。例如:


  • “从这份合同中提取甲方的全称、乙方的全称、合同总金额、合同生效日期和合同终止日期。”

  • “从这张发票中找出供应商名称、发票号码、开票日期、含税总金额和购买的商品清单(包括商品名称、数量、单价)。”


同时,应用 LLM 能力的抽取极简版也能更灵活地处理格式要求,用户可以在 prompt 中直接指定期望的输出格式,LLM 就能够理解并遵守这些要求。例如:


  • “合同总金额请输出为数字格式(例如:120000.00),不要带货币符号。”

  • “开票日期请统一格式化为 YYYY-MM-DD。”

  • “商品清单请输出为一个 JSON 数组,每个商品包含namequantityunit_price三个字段。”


让我们来看几个实操案例:

1


Prompt 如下:

图为银行流水,对图中信息结构化,提取日期时间、日志号、短摘要、交易金额、本次余额、交易网点、渠道、对方账户名/附言,并以json格式输出json格式要求:日期统一以YYYY-MM-DD格式输出
复制代码

2


Prompt 如下:

图为出差报销单,将差旅报销信息结构化,按json格式输出,包括:基本信息:[出差人,部门,职务,报销金额合计]出差明细:[条目详情1,条目详情2……]
复制代码


TextIn 智能文档抽取极简版 beta 基于优秀的版面分析技术,结合 LLM 本身强大的文本理解和生成能力,精准且灵活地定位提取数据信息,且使得许多简单的格式转换(日期格式化、数字清理、基础的单位转换)可以直接在模型生成输出时完成,无需用户额外编写复杂的后处理脚本。


抽取极简版保障了良好的字段稳定性,避免对企业级应用影响最大的结果波动问题,支持在线多并发处理,实现快速提取。


文档抽取技术正处于从“复杂配置+编码”向“自然语言指令驱动”快速演进的过程中,结合 LLM 能力的新一代工具极大地提升了易用性和灵活性,正在成为解决文档信息自动化提取难题的更优方案。


欢迎后台私信小助手,开通免费试用,来交流群与我们共同探讨技术发展与 AI 应用的可能性。

发布于: 刚刚阅读数: 5
用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
文档抽取进入「说人话」时代:用Prompt就能提取发票、合同、简历的关键信息_人工智能_合合技术团队_InfoQ写作社区