新功能内测！图表解析上线，一键帮助大模型读懂图表数据

作者：合合技术团队

2025-02-13
上海
本文字数：1383 字
阅读完需：约 5 分钟

TextIn 文档解析上线新功能【图表识别】，目前已启动内测。图表识别功能可以智能解析图表属性 Chart，并以 Excel 格式精准输出，帮助大模型深度理解图表的结构、趋势和数据逻辑，让数据分析更高效。

一、功能使用配置

当前功能已支持饼图、折线图、柱状图、雷达图、散点图等多种图表类型，试用方式如下：

地址：通用文档解析-RAG文本解析-PDF转markdown-TextIn

参数配置方法：见下图。

添加图片注释，不超过 140 字（可选）

二、功能应用场景

从金融研报、市场分析材料到学术论文，柱状图、折线图、散点图等图表经常被运用于记录和直观表现数据。但是，当我们试图逆向拆解 PDF 或 JPG、PNG 格式的图表，将其重新转化为 Excel 等可编辑数据形式，就会遇到难点。

1.金融领域

以金融行业为例，机构常需解析上市公司的年报、各类研报中的数据，其中包括大量图表数据。这些文件以 PDF 和图片格式为主体，也不乏批量处理更困难的加密 PDF。相比纯文本，表格、图表中包含了更多重要数据，如何准确地提取这些数据对进一步的研究分析工作至关重要。

2.学术科研领域

医学、工程等领域也经常会遇到类似的问题。现今的许多研究都奠基于上世纪 50-80 年代，在电子化时代之前，这些历史论文常存在数据缺失，关键图表仅存低清扫描件的问题。传统方法需要实验室研究生手动记录或用尺子测量图表像素，且无法保证精准度。

图表识别要解决的，正是这些难题。

目前，能将非矢量格式的图表解析为结构化数据的工具较为少见，且具有相当大的局限性。WebPlotDigitizer、Tesseract OCR 等工具能辅助图表识别工作，但大多需要手动操作，精度有限；调用 Python 库则要求使用者有一定的编程能力。而且，这些方法都只能完成比较基本的图表识别，无法支持例如堆叠柱状图这样的复杂图表。