大模型数据准备 | 澳鹏一站式文档智能识别解决方案
在训练大模型的过程中,许多专业领域知识是基于书籍等纸质文档的形式记录的,常见于教材、期刊论文、特定学科研究等。例如工业、教育等涉及到专业领域的行业应用,大量需要训练的数据沉淀在纸质版上亟待利用。
▲澳鹏一站式文档智能识别:
澳鹏全新推出文档智能识别接口,可将图片、不可编辑的 PDF 等文档一键识别转换成可编辑的 Word 或 Markdown 格式,方便对其中数据作进一步利用。接口支持识别文档中不同模态的数据,如文本、插图、公式、表格等,并支持对不同版面进行识别和还原。
大模型的数据准备难题
在大模型的训练过程中,许多企业或行业数据沉淀在不可编辑的 PDF、甚至是纸质文档中。若要将这些数据利用起来,无论是用作基础大模型的训练数据,还是用于 RAG 或微调,都需要先转化成可编辑的文档格式。
这些文档包含的内容有文本、表格、公式、插图等内容,现有的内容识别技术大多只能识别文字,而对其他形态的内容无法进行识别和转换。若要开发一个能识别所有格式内容的算法,其研发成本往往较高,识别速度和准确率亦无法得以保证。
澳鹏一站式文档智能识别解决方案
澳鹏文档智能识别集成了多种算法能力:首先使用版面识别算法,可识别出 PDF 中每一页的内容类型,包括文本、表格、公式、插图等;如页面中包含多种内容,则将每个独立的内容块截取出来;再根据内容块的内容类型,调用不同的识别算法,包括文本识别算法、表格识别算法、公式识别算法等。
识别完成后再将内容拼接到一个文档中,可还原成原始版面。同时,澳鹏也提供人工复核服务,进一步提升识别准确率。
专业、高效、安全
高效率低成本:使用澳鹏文档智能识别处理文档时,一个上百页的 PDF 只需耗时数分钟即可完成,远快于人工转写;可批量处理大量文件,降低人力成本。
高安全性:无需企业外部人员参与文档内容转写过程,降低了敏感数据泄露的风险。
易于集成:澳鹏文档智能识别方案可与企业现有的业务流程和系统集成,自动输入、输出数据。
应用案例:
某化工高科技企业在开发行业大模型时,需要对一些化工类教科书和企业现有的数据进行结构化处理,用于大模型的训练中。这些文档通常包含专业的化学术语、复杂的化学结构图、实验数据和表格,人工转录和分析这些信息耗时久且易出错。澳鹏智能文档识别解决方案帮助该企业自动化地将各种类型的文档转化为结构化数据,帮助该企业高效训练行业大模型。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/1ab91676c2e472f51fb0953c7】。文章转载请联系作者。
评论