合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程
合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程
目前,市面上文档解析工具繁杂无序,缺乏统一评估标准,集成难度大、调试周期长,给个人开发者及中小企业带来沉重负担。为此,合合信息推出智能文档处理"百宝箱",通过可视化文档解析前端、向量化 Acge-embedding 模型、定量测评工具,为开发者提供便捷产品效果评估手段,助力项目快速落地
可视化文档解析前端 TextInParseX
TextInParseX 通用文档解析是一款大模型解析工具,支持将 PDF 文档、JPG、IMG 图像等文件快速转换为 Markdown 格式,并具备各类表格、公式的解析能力,帮助大语言模型完成数据清洗、文档问答任务,提高文档处理效率和准确性
1、丰富可视化与交互功能:TextInParseX 前端组件提供全面文档可视化功能,能够预览并渲染主流图片格式(JPG、PNG 等)和 PDF 文件,用户可以通过缩放和旋转功能轻松调整文档视图,更细致地查看文档内容,支持 Markdown 结果渲染,准确展示各级标题、文本和表格,为用户提供直观阅读体验
2、深度解析与元素溯源:TextInParseX 具备强大文档解析能力,能够提取并展示文档中各类元素,包括表格、公式、图片等,支持解析元素文档位置溯源,即在原文中画框标注各元素位置,用户可以通过点击画框直接跳转到相应解析结果,双向跳转功能大大提高用户审核校对文档效率
3、灵活接口调用与配置:TextInParseX 基于 ES6 和 React 框架开发,提供灵活接口调用选项和参数配置功能,用户可以根据自己需求配置不同参数组合,获取更精确解析结果,支持在 GitHub 上检索 TextInParseX 获取更多相关信息和社区支持,方便用户进行二次开发和功能扩展
表格识别效果好
能准确识别各种格式表格,包括有线表、无线表、密集表,并支持各种类型合并单元格识别与还原
支持多种扫描内容
基于合合多年文档识别积累,能良好处理图片、扫描内容、手机照片、截屏等内容
阅读顺序还原准
理解和还原文档结构和元素排列,确保阅读顺序准确性,支持多栏布局的论文、年报、业务报告等内容
使用体验
Textin 控制台将需要导出为 Markdown 格式的文件传入
导出结果展示,文档解析精准度极高,对于文档中的各一级标题、二级标题(乃至更细致的层级标题)均能准确识别并清晰呈现
向量化 Acge-embedding 模型
合合信息推出的一款先进的文本向量化模型:ACGE_Text_Embedding 模型,采用俄罗斯套娃表征学习框架,能够生成一个嵌套且多粒度的表示向量,可以独立用于不同任务,同时保持高度的准确性与信息丰富性,灵活适应不同计算资源需求,无缝地融入多种表示学习框架
训练阶段 MRL 框架会根据预设的向量维度(例如 64、128 直至 2048、3072 等)分别计算多个损失值,以此在单次训练周期内即可获取多种维度文本表征,由粗至细层次化表示策略,显著增强了模型灵活性,极大缩减推理与部署阶段额外开销
高精度与高效率:ACGE-Embedding 模型在 MTEB 中文榜单上取得第一名成绩,展现了其高精度与高效率特点,和其它开源模型相比,ACGE 模型较小,占用资源少,同时支持可变嵌入维度,能够根据具体场景合理分配资源,实现高效处理
灵活性与可扩展性:ACGE-Embedding 模型采用了俄罗斯套娃表征学习(MRL)技术,使得文本嵌入模型在推理时具备可变 Embedding 大小的能力,提高模型灵活性,使得文档块向量库能够实时动态更新,实现低成本高扩展
强大泛化能力与适应性:ACGE-Embedding 模型通过对比学习技术、数据挖掘、多任务混合训练、持续学习等方法,提升模型泛化能力与适应性,使模型能够处理各种复杂下游任务,如文本分类、聚类、成对分类、重排序、检索、语义文本相似性等,避免引入新数据后模型灾难性遗忘问题
使用体验
1、安装依赖:使用 acge_text_embedding 模型之前,需要安装
sentence_transformers
库,使用 pip 进行安装pip install --upgrade sentence_transformers
2、加载模型:安装完成后,使用以下代码加载 acge_text_embedding 模型
from sentence_transformers import SentenceTransformer,model = SentenceTransformer('acge_text_embedding')
3、模型使用
文本向量化:使用 model.encode()方法对文本进行向量化
文本列表:
sentences = ["我喜欢这本书", "我很爱读这本书"]
向量化:
embeddings = model.encode(sentences, normalize_embeddings=True)
计算相似度:文本向量后,可以使用余弦相似度等方法计算文本之间相似度
计算两个文本之间相似度:
similarity = embeddings[0] @ embeddings[1].T
文档解析测评工具 Markdown_tester
文档解析测评工具 Markdown_Tester,通过定量测评展示各解析产品具体表现,帮助用户聚焦于业务场景,快速、高效评估各款解析产品在业务场景下的能力,用于对 Markdown 文档进行相似性评价(段落、标题、表格、公式维度)
全面性:涵盖表格、段落、标题、阅读顺序、公式等多维度,能够全面评估解析产品性能
准确性:通过定量测评与具体指标计算,准确反映各解析产品表现
便捷性:支持上传任意样本进行测评,操作简单便捷
可视化:输出结果包括直观雷达图,直观比较与分析各解析产品性能
使用体验
1、安装软件包
./install.sh
2、待测评样本按照下述方式放置
dataset/ ├── pred/ │ ├── gpt-4o/ │ ├── vendor_A/ │ ├── vendor_B/ │ ├── ... ├── gt/
3、使用命令如下
path_to_pred_md
:预测值文件所在文件夹
path_to_gt_md
:真值文件所在文件夹python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md
4、运行结果
百宝箱场景应用
知识库(RAG)
RAG(知识库)是先进文档处理技术,超越传统方法仅基于字符长度进行索引、检索和生成内容的局限,通过深入理解文档内容逻辑,将文本智能地分块,并生成分块摘要,精准识别并提取文档中的关键元素(文本、图像、表格等)显著提高处理效率,优化输出效果
智能文档抽取(OpenKIE)
智能文档抽取(OpenKIE)从各类非结构化或半结构化的文档中自动提取出重要信息(实体、关系等)转化为结构化格式,方便计算机进一步处理与分析,不仅能够处理文本段落中的信息,还能有效应对表格、图表等复杂元素,实现信息全面抽取
大模型预训练语料与数据治理快速入库
大模型预训练语料与数据治理快速入库高效且精细的数据处理流程,迅速整合并优化海量训练语料,通过专业操作数据清洗、精确标注、高效入库等,保数据准确性和多样性,为人工智能大模型预训练提供坚实基础,运用场景广泛
金融报告(年报、研报、ESG 报告、招股书等)
国家标准(涵盖国际、行业及专利标准等)
学术论文(涉及医疗、科研、题库、K12 教育等多个领域)
文档公告(如招投标文件、合同、政策文档等)
使用手册(如产品手册、图纸手册等)
文档翻译(Document Translate)
文档翻译(DocumentTranslate)高效、准确且用户友好的多语言文档翻译工具,能够迅速还原并翻译各种格式文档,满足全球内容分发需求
还原度与准确性:翻译整篇文档,保留原有格式,理解并精确翻译复杂句子,减少错误并提高翻译质量
上下文意识:理解对话与叙述上下文,确保翻译保留原意与语气
速度与多语言支持:同时处理多种语言,几秒钟内处理并翻译大量文档
结语
合合信息智能文档处理"百宝箱"促进了工作效率与技术创新的飞跃,其精准高效的文档解析能力,解决了复杂版式文档难处理的问题,使得知识库开发流程更流畅、数据更准确;文档解析前端组件,让开发者在文档解析后能轻松进行审核校对与细致的二次优化;Acge 文本向量化模型,进一步推动知识库信息构建、检索、查询智能化与高效化进程
无论是对于开发者还是最终用户,合合信息智能文档处理"百宝箱"简化了工作流程,缩短产品开发周期,使团队能够更专注于核心功能创新与优化;对于最终用户,提升了使用体验,无论是信息的快速检索还是准确获取,都变得更加便捷与高效
如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利
版权声明: 本文为 InfoQ 作者【追风少年】的原创文章。
原文链接:【http://xie.infoq.cn/article/593825b607d575592b727eac1】。文章转载请联系作者。
评论