写点什么

PP-OCR 与文心一言强强结合,无须训练,信息抽取精度超 80%!

  • 2023-11-27
    北京
  • 本文字数:1698 字

    阅读完需:约 6 分钟

PP-OCR与文心一言强强结合,无须训练,信息抽取精度超80%!

众所周知,文本图像的智能分析面临诸多挑战。首先,文本图像的场景非常多样,比如论文、书籍、说明书、合同等,模型的泛化性难以满足要求。其次,有的场景比较复杂,比如生僻字、表格和多页 PDF 等,模型难以达到理想的精度。最后,部署繁琐,模型部署涉及诸多技术细节,影响落地效率。


在大模型时代,LLM 会带来怎样的帮助呢?


近期,我们发布了一个融合了文心一言和 PP-OCRv4 的文档图像信息抽取神器——PP-ChatOCRv2。一个 SDK,覆盖 20+ 高频应用场景,支持 5 文本图像智能分析能力和部署,包括通用场景关键信息抽取(快递单、营业执照和机动车行驶证等)、复杂文档场景关键信息抽取(解决生僻字、特殊标点、多页 PDF、表格等难点问题)、通用 OCR、文档场景专用 OCR、通用表格识别。此外针对垂类业务场景,也支持模型训练、微调和 Prompt 优化。让我们先看看效果。

PP-ChatOCRv2 效果速览


PP-ChatOCRv2 在线体验传送门:https://aistudio.baidu.com/application/detail/10368


PP-ChatOCRv2 有四方面特色:

  • 场景丰富: 支持 5 种智能文本图像分析能力,覆盖 20+高频应用场景,尤其针对复杂文档场景进行了专项优化。

  • 精准度高: 「PP-OCR」与「文心一言」强强结合,支持 1.5 万+大字库,专项优化生僻字、多页 PDF、 表格等难题。无需训练即可在 20+场景关键息抽取平均准确率达 80%以上。

  • 一键部署: 一键获取 PP-ChatOCRv2 离线部署 SDK,助力企业快速实现工程落地。

  • 便捷开发: 针对垂类业务场景,可灵活替换微调后的 OCR 模型,支持自定义 Prompt 优化。


下面我们将详细介绍这款神器的特色。

场景丰富

PP-ChatOCRv2 支持的 5 种智能文本图像分析能力如下表所示:


覆盖以下 20+高频应用场景:营业执照、机动车行驶证、驾照、车检证、增值税发票、高速发票、商场发票、火车票、航空电子行程单(飞机发票)、快递单号、快车/出租车行程单、身份证、社保卡、银行卡、名片、身份证、社保卡、户口本、结婚证、出生证、房产证、港澳通行证、台湾通行证、保险单、银行电子回单等。此外,PP-ChatOCRv2 针对复杂文档场景进行了专项优化。

精准度高

PP-ChatOCRv2 通用文本图像智能分析系统由 OCR 系统和文心大模型串联完成,OCR 系统中集成了文本检测、文本识别、版面分析、表格识别等多个功能,可实现 CPU/GPU 上的实时预测,在通用场景上达到 80%+的平均准确率。文心大语言模型可以将海量数据和知识融合,准确率高且应用广泛。


PP-ChatOCRv2 的技术流程如下图所示:首先输入预测图片,送入通用 OCR 系统,经过版面分析后,预测图像中的文字信息和表格结构。将 OCR 预测出的文字、表格结构与 Query 之间进行向量检索,得到与 Query 相关的文本信息。然后送入 Prompt 生成器重新组合成 Prompt,最终传给大模型获得预测结果。

PP-ChatOCRv2 技术流程图

一键部署

PP-ChatOCRv2 的部署非常简单,选择好部署环境,一键获取 SDK 部署包。一个 SDK,通过不同配置文件,完成 5 种智能文本图像分析任务推理。目前支持部署在 Linux 操作系统,使用 NVIDIA GPU 和 X86 CPU 推理,后续规划适配到更多国产硬件,并且提供服务化部署和端侧部署能力。



便捷开发

除上述特色外,这款神器也提供了便捷的二次开发功能,可灵活替换微调后的 OCR 模型,支持自定义 Prompt 优化。通过 UI 界面点击和少量文本内容修改,即可便捷地完成二次开发:

  • Prompt 优化:通过配置文件的方式暴露必要接口,开发者可以通过配置文件选择场景模版、修改 few-shot 指令,通过少量的代码即可完成特定场景的预处理和后处理,减小开发成本。

  • OCR 模型优化:PaddleX 支持用户基于自有数据进行 OCR 模型的训练微调,进而替换 PP-ChatOCRv2 中的 OCR 模型,获得更优的推理效果。


Prompt 优化示意


OCR 模型微调示意



PaddleX 是面向国内外主流 AI 硬件的,全流程、高效率的飞桨精选 AI 模型的一站式 AI 开发套件,目前覆盖 10+主流 AI 任务下的 40+精选模型全流程开发,提供了 PP-ChatOCRv2、大模型半监督学习工具和 PP-TSv2 三大特色工具。PP-ChatOCRv2 作为一个通用文本图像智能分析工具,旨在为大家带来 LLM 加持下的效率提升。


PP-ChatOCRv2 工具首页:

https://aistudio.baidu.com/projectdetail/paddlex/7050167


加入 PaddleX 官方频道,和大家一起讨论 PP-ChatOCRv2 开发经验,传送门:https://aistudio.baidu.com/community/channel/610

发布于: 刚刚阅读数: 5
用户头像

还未添加个人签名 2022-12-26 加入

还未添加个人简介

评论

发布
暂无评论
PP-OCR与文心一言强强结合,无须训练,信息抽取精度超80%!_人工智能_飞桨PaddlePaddle_InfoQ写作社区