写点什么

实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?

  • 2025-04-02
    上海
  • 本文字数:1493 字

    阅读完需:约 5 分钟

实测对比|法国AI独角兽公司发布的“最强OCR”,实测效果如何?

3 月上旬,法国一家 AI 独角兽公司进军 OCR(光学字符识别)领域,发布了一个号称“全世界最好的 OCR”产品,根据其技术团队的说明,这款 OCR 产品具备优秀的准确度和认知能力,能够理解文档的每个元素(包括文本、表格、公式等),从图像和 PDF 中提取内容信息。与当前市场或学术界其他文档解析工具一样,这款产品(下文中简称为“A 产品”)旨在对 AI 难以直接识别的复杂文档进行解析处理,提升类似 RAG 等文档场景下的 AI 应用性能。


产品文档中介绍了它的几项优势:

  • 对复杂文档实现 SOTA 理解:擅长理解复杂的文档元素,包括交错图像、数学表达式、表格和 LaTeX 格式等高级布局。该模型可以更深入地理解丰富的文件,如带有图表、图形、公式和数字的科学论文。

  • 基准测试成绩第一:在严格的基准测试中始终优于其他领先的 OCR 模型,其在文档分析的多个方面都表现出色。

  • 支持原生多语言:能够解析、理解和转录各大洲的数千种脚本、字体和语言,便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。


A 产品发布后,全球众多开发团队进行了试用并发布他们的评价。在多元化的使用场景下,A 产品获得的评价也各有不同。如下图中的推文表示,在中文样本测试中,A 产品的表现没有显著优势。也有 AI 团队认为,A 产品超越了一些前沿 LLM 的 OCR 性能,但尚未完全为企业使用做好准备。



在实际生产环境中,A 产品表现是否出色?它的中文文件处理性能与国内产品相较如何?

面对这些问题,TextIn 测试团队进行了一次针对性测试,基于丰富的真实样本,全方面评测 OCR 产品能力。

测评指标

测评指标中分了 6 个维度,针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。

测试数据集

本次测试基于实际生产环境中的多类型文件样本,包含 PDF 扫描文件、图像与电子文件,包含印刷、手写字体,语言以英语、中文为主,文件种类涵盖学术、商业、教育等场景,具体种类及数量如下图所示。

测试结论

测试团队对 A 产品与 TextIn 文档解析工具开展对比测试,各项指标测试结果如下图所示。


整体而言,TextIn 文档解析在各项指标上表现良好,其中表格解析能力较为突出,公式识别相对一般;A 产品在英文论文、英文 PDF 扫描文档等文件类型上识别效果较好,中文以及手写性能一般,整体技术能力在中文环境及商业文件复杂样本下存在薄弱项。

其中:

  • 表格识别存在缺陷,不支持合并单元格,对无线表无法正确识别;

  • 文本如果带旋转角度,识别错误比较严重,会出现明显幻觉;

  • 卡证票据、复杂背景、复杂版式(例如多栏文本)、手写等实际业务中常见场景下的文档识别效果一般。

具体案例

英语科学论文

原文件


A 产品识别结果可视化



TextIn 识别结果可视化


如图中识别结果可见,对于英语科学论文样本,A 产品和 TextIn 都可以正确识别标题与文本,其中 A 产品能完全准确解析复杂数学表达式,而 TextIn 解析的公式存在细微误差。

中文表单

原文件


A 产品识别结果可视化


TextIn 识别结果可视化


对于中文少线表单,TextIn 能够正确解析,A 产品则无法识别表格结构。

英语表格

原文件


A 产品识别结果可视化


TextIn 识别结果可视化


对于英语复杂表格,A 产品出现乱码、合并单元格错误等问题,TextIn 正确识别特殊符号与合并单元格,但两者都没有准确识别表格中的旋转字体。

中文手写样本

原文件

A 产品识别结果可视化



TextIn 识别结果可视化


对于试卷样本,A 产品和 TextIn 都能正确解析试卷中的印刷体,但无法保证较为模糊的手写字体完全正确,其中,TextIn 能够识别部分手写字体,A 产品则缺少手写解析结果。


通过实测对比,我们可以更清晰地评估国内外前沿文档解析产品的技术优劣势,便于用户完成技术选型。


👇欢迎后台私信小助手,免费开通在线测试。

⭐欢迎来交流群领取更多福利与大模型应用技术学习材料,与我们共同探讨技术发展与 AI 应用的可能性。

发布于: 15 分钟前阅读数: 8
用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
实测对比|法国AI独角兽公司发布的“最强OCR”,实测效果如何?_人工智能_合合技术团队_InfoQ写作社区