写点什么

OpsPilot 揭秘 RAG 预处理优化:文档提取精度提升 30%,分块策略深度拆解

作者:嘉为蓝鲸
  • 2025-04-14
    广东
  • 本文字数:1666 字

    阅读完需:约 5 分钟

OpsPilot 揭秘 RAG 预处理优化:文档提取精度提升 30%,分块策略深度拆解

直达原文:OpsPilot功能上新:知识库 RAG 预处理强化,细化文档提取和分块策略(内附体验环境)


在大语言模型技术快速发展的当下,检索增强生成(RAG)技术凭借强大的潜力,在众多应用场景中得到广泛运用。嘉为蓝鲸 OpsPilot 作为智能运维支撑平台,深度融合 LLM 大模型能力,基于 RAG 技术构建高效知识库体系。

在 RAG 技术栈中,提取分块如同 “知识手术刀”,将原始文档精准切割为适合大模型处理的 “知识细胞”,既避免长文本的 “信息肥胖症”,又防止短文本的 “营养碎片化”,它们直接影响着后续文本向量化的质量,以及检索效率与大模型输出的准确性。


01.知识处理

将用户上传的各类知识(如各类型文档、自定义文本、网络链接)进行提取-分块-增强,以便后续知识向量化和混合检索。针对不同类型的知识,OpsPilot 提供“5+4”类提取、分块策略,提供给用户多元搭配选择,如:用户上传一个长文本技术文档,可先通过章节提取抓取目录结构内容,再结合语义分块,基于算法按主题拆分,为后续检索筑牢基础。


1)文档提取

能将各类格式文档转化为可供系统处理的文本,从大量原始数据中提取出可被系统处理的文本信息,确保信息的完整性与准确性。它的进行关乎到最终能拿到什么数据信息,比如:无法编辑的 PDF 文件,质量不好的提取,可能拿到的就是乱码。OpsPilot 通过五种方式实现高效提取:


(1)五大文档提取方式

  1. 全文提取:适用 PDF、MarkDown、TXT 等,直接提取全部文本内容,并对扫描版 PDF 启用 OCR 识别图像文字。

  2. 章节提取:适用 Word 等,利用文档的目录结构(如标题)提取内容,适合技术文档、论文等长文本。

  3. 页面提取:适用 PPT 等,按页分割,每页作为一个独立单元提取。

  4. 对表格——适用 Excel(.xlsx/.csv)等

  • 工作表提取:将每个工作表(Sheet)作为独立单元整体提取,保留表格的完整结构和数据。

  • 行级提取:提取表头和逐行数据,生成表头字段和行记录。


2)文档分块

将长文本拆分为较小的、语义聚焦的短单元,解决长文本向量化中的语义稀释、计算资源消耗和检索效率低问题。分块为文本建立“检索索引”,提升检索定位精准度与速度;同时,轻量化文本既能避免大模型输入超限,又能增强生成逻辑连贯性。OpsPilot 通过四种分块方式达成以上效果:

  • 定长分块:‌适用 TXT、PPT、PDF、Excel 等。按预设的固定长度分割内容,适合快速批量处理数据。

  • 循环分块:‌适用长文本(PDF、TXT 等),在定长分块基础上,设置块间内容重叠减少语义断裂,适合需要连续上下文的。

  • 语义分块:适用结构化文档(Word、Markdown 等)、技术文档(PDF 带目录等),基于内容逻辑分割,保留完整语义单元(如章节、段落模块),适合需逻辑关联的长文本处理。

  • 不分块:适用短文本(邮件、摘要)、小型文件(单页 PPT、简单表格、短文 TXT),保留全部原文内容,适合需要整体理解的场景。


02.功能介绍


1)上传:多类知识汇聚上传

知识库支持三种知识上传方式,包括:本地文件上传——私域知识沉淀、网页知识——动态知识补充、自定义文本——碎片知识整合,覆盖用户全方面知识上传需求。


2)提取:多元格式适配,精准识别内容

为精准识别不同格式文档内容,OpsPilot 以多元提取方式适配需求。包含全文提取(处理 PDF 等,扫描件启用 OCR)、章节提取(按 Word 目录结构解析长文本)、页面提取(拆分 PPT 单页),以及表格的工作表整体提取、行级数据提取,实现文档结构与内容的深度解析。



3)分块:破解长文本难题,优化检索效果

提取出可编辑的文本数据后,分块对其进一步处理,通过精细切割让知识 “化整为零”,为高效检索与智能生成铺就基石。分块功能依据文本特性与应用场景,提供多元策略:定长分块、循环分块、语义分块、不分块。分块通过优化知识颗粒度,让机器理解与检索的效率,真正匹配人类的知识逻辑。


03.嘉为蓝鲸 OpsPilot——更懂运维的 AI 平台


嘉为蓝鲸 OpsPilot 是一款集知识库管理、技能配置、机器人管理和工具管理为一体的智能运维支撑平台,通过结合 LLM 大模型强大语义理解、知识增强与多模态处理能力,从而实现运维相关的问答和操作。此外,OpsPilot 更加聚焦于运维领域,超出单个 LLM 大模型的能力范畴,成为更懂运维的智能 AI 平台。


用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
OpsPilot 揭秘 RAG 预处理优化:文档提取精度提升 30%,分块策略深度拆解_智能运维_嘉为蓝鲸_InfoQ写作社区