写点什么

A 股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

  • 2024-08-28
    上海
  • 本文字数:1190 字

    阅读完需:约 4 分钟

A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

财务报告是公众和投资者了解企业经营状况的主要信源之一。步入 8 月中下旬,上市公司进入了中报披露高峰期。据东方财富 Choice 数据统计,截至 8 月 14 日数据,A 股有超过 1715 只个股公布了 2024 年半年度业绩预告,海量的财报文件对于金融行业从业者而言,无疑是巨大的工作量。


随着人工智能技术的深入发展,部分企业和个人开始尝试用大模型进行财务报表分析。针对大模型“理解力”薄弱,数据读取错误等问题,合合信息大模型“加速器”方案优化升级了 PDF 文档解析技术,将非结构化的 PDF 内容转换为结构化数据,提高大模型图表类数据提取准确性和版面理解能力,助力大模型实现从”泛读“到“精读“的能力跨越。


PDF 是主流的电子文件格式之一。文档解析技术可将 PDF、图片等多种格式的文件解析为 Markdown 或 JSON 格式的文档,并以一种对大模型友好的方式呈现。


文档解析技术是大模型理解和处理文档的前提,相关能力的缺失,在理解版面不同区域的内容排列顺序、要点时遇到障碍,影响大模型的“理解力”,财务报表中的关键信息可能会丢失或被误解,这会导致模型生成的答案不够精准,无法正确回答用户的查询。


“人类阅读文章时可以自然地判断版面元素的作用,但机器要经历层层拆解的过程才能‘读懂’文章。”据合合信息技术团队成员介绍,财报、年报文件多以 PDF 格式为主,其中包含着各类复杂表格、图表、证照等元素。大模型现阶段存在的文档解析能力缺陷主要体现如下方面:


文档识别失败率高。面对复杂版面,无法正确解析,获取标题、分块文本、图表等。在这种情况下,大模型常表现为细节信息提供答案失败或回答错误;逻辑结构解析不完整也是核心问题之一,段落语义划分错误,会导致大模型回答不全面或出现总结性偏差的状况。


图 1:合合信息 PDF 文档解析技术在大模型表格解析中的效果


据了解,合合信息 PDF 文档解析技术具备具备多文档元素识别、版面分析能力,可以识别文档中的段落、公式、页眉、页脚等多种元素,并进行对应的处理。在应对财报中常见的无线表、合并单元格、不规则行距、跨段、跨页等障碍时,该技术也能做到准确还原各类表格结构。


为了让大模型像专业人士一样阅读文本,PDF 文档解析技术可对各类学术文献进行版面元素的识别及阅读顺序的判定。该技术不仅能够准确定位文档中的关键信息段落,还能根据 PDF 文档的布局和格式,推断出人类阅读时的顺序,而非机械地判定为从左至右排序,避免把完整的段落文字“拦腰斩断”,真正做到了“所见即所得”。


图 2:合合信息 PDF 文档解析技术对双栏论文的解析效果


合合信息技术团队成员表示,上市公司年报页数大多集中在 200 至 300 页的范围内,一个熟练的分析师可能在几天到一周的时间内完成对年报的基本分析,PDF 文档解析工具最快能在 1.5 秒完成百页文档的解析,按 8 小时为一日工作时间计算,解析工具可帮助大模型在一日内对数千家企业的年报数据进行精准分析。随着无纸化办公、数字化趋势发展,PDF 文档解析技术有望被应用于更广泛的场景。


用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报_金融_合合技术团队_InfoQ写作社区