京东云 JoyAgent 持续开源!多模态 RAG 能力正式开源
JoyAgent 是京东自主研发的智能体引擎平台。今年 7 月,其多智能体引擎模块 JoyAgent (JDGenie)正式开源;9 月,在 JDGenie 基础上进一步开源 DataAgent 能力,此次,京东再次发布重要更新-在 JoyAgent-JDGenie 中开源多模态 RAG 能力。持续推进智能体技术在开源社区的共建与共享。
目前该项目在 GitHub 上已获得 11.2kStar,欢迎开发者体验并参与共享。
•开源体验:https://github.com/jd-opensource/joyagent-jdgenie
•多模态知识管理 md 地址: https://github.com/jd-opensource/joyagent-jdgenie/blob/data_agent/README_mrag.md
多模态知识管理简介
传统 RAG 基础架构
传统的检索增强生成(RAG)技术,在处理文本知识方面取得了显著的成功,它通过外部知识库有效缓解了大型语言模型的“幻觉”问题。但其局限性也日益凸显
一、多模态问题:处理结构化与非结构化内容
当面对企业内普遍存在的文档时,一个仅能理解文字的 RAG 系统,无法阅读和理解图片、表格中蕴含的丰富信息。这导致了检索的片面性与答案的不完整性,大量高价值的知识资产因此沉睡,无法被有效利用。
一方面图像中的数据(如截图或扫描件)也无法被文本 RAG 系统直接理解。另一方面 PDF 文档尤其是包含嵌入式表格、图表和复杂布局的文档,需要复杂的解析逻辑,因为其格式和布局往往不一致 。传统的文本提取方法在此处会丢失关键信息,例如表格中数字的列关系或图表中数据的视觉趋势。大型语言模型(LLM)主要通过海量的顺序文本进行训练,因此它们在处理多维、关系化的表格数据时会遇到困难 。如果将表格简单地转换为纯文本进行嵌入,就会破坏其固有的结构化关系,导致检索结果的准确性大打折扣 。
二、数据质量与动态性:RAG 性能的杀手
企业知识库面临的另一个严峻挑战是数据质量的参差不齐和内容的频繁更新。如果知识库中存在不一致的格式、过时的信息、重复的条目或相互冲突的事实,往往无法给出准确的回答 。
同时,知识库并非静态不变。在实际的企业环境中,文档更新频繁。管理这些变更是本身就是一项复杂的任务,因为每一次更新或删除都可能需要同步其在索引中的所有相关数据块和向量。此外,公司的一些核心信息往往驻留于实时、动态的运营系统(如 CRM、ERP)中 。这些数据都是传统 RAG 所无法处理的。
JoyAgent 企业内多模态知识管理系统架构
一、知识加工层
时序知识图谱
我们引入 graphiti, 一个构建和查询时间感知知识图谱的框架,建设时序知识图谱。Graphiti 基于事件更新的时序知识图谱构建,增量更新、双时间建模(跟踪事件发生时间和摄入时间),并在无需完整重新计算的情况下处理随时间演变的关系统计。利用它可以可以整合并维护动态的用户交互和业务数据,支持智能体基于状态的推理和任务自动化。
•处理异构、演变的数据源以支持决策和自动化
•时间特征在需要历史分析的场景中特别有价值,如金融服务的审计合规或供应链管理的趋势预测。
多文档格式多数据源支持
为了支持企业内丰富的文档格式,我们支持文档(Excel、Word、PDF、PPT,图片等),同时需要对视频做专门的 ASR 以及关键帧切片处理。
此外,为了提升异构数据的处理效果,我们定义了统一的文档结构,针对不同类型的文件定义不同的解析算法,输出统一的文档结构,方便后续的用户人工干预和索引构建流程。
企业中大量的支持存储在系统里(例如 ERP,CRM 等),因此除了支持普通的文件输入,我们还需要支持 API 形式的数据录入。我们专门优化了针对 API 的数据调用流程和系统描述。这样上层 Agent 能动态发现是否需要调用某个 API 获取对应的数据。
知识使用层-多模态 RAG
多结构索引
为了尽可能的召回需要的知识片段,以及建立知识之间的相互关系。我们建立了基于图谱的 GraphRAG, 基于 tag 的关键词索引以及传统的 Emebedding 索引。
分块策略直接决定上下文的完整性和连贯性,从而影响生成输出的质量。普通分块可能破坏语义完整性,降低相关性。在长篇文档中往往标题,副标题是对一大片文档的整体总结,如果只看分块可能会造成信息丢失。因此,我们优化了分块策略,引入层级分块策略。
Hierarchical Chunk Index(层级分块索引)
层级分块能够将文档内容按照语义关系和结构层级进行分块管理,使得系统在检索时能够更细致地定位相关信息,并有效支持长文档和复杂结构的内容解析与检索。
知识图谱召回
GraphRAG 通过构建节点(实体)和边(关系)的图结构,捕捉这些内在连接,实现多跳推理——例如,从“产品销售数据”跳到“客户反馈”再到“供应链调整”。这种方法在复杂推理任务中可将准确率提升高达 35%。为了适应企业数据的动态性以及时序性,我们引入了时序知识图谱,每条边记录事件有效期和系统录入时间,允许企业查询历史状态,这就使得 AI Agent 能维护连续上下文,跟踪用户偏好。
Agentic 搜索
传统的 RAG 系统本质上是一种“被动”的、单轮次的“检索后阅读”模式。它擅长于处理简单的信息检索,但面对复杂、多步骤的查询时,其能力边界便显现出来。Agentic RAG 能根据检索结果进行主动规划、推理和执行,将 LLM 从一个被动的响应者转变为一个能够主动思考、调查并解决问题的智能体。
为了平衡时间和效率问题,目前我们开放了配置选项,用户可以自主选择是否需要开启 Agentic 的能力,如果关闭,则回归传统模式,走一次检索总结流程。
多模态检索
由于大量的知识在图片,pdf 或者表格中,在没有看到 query 前直接用 ocr,或者摘要会造成信息丢失。因此在我们实现多模态检索时,我们增加了 VLM 进行回答的过程。我们将 query 与召回的图片进行交给 VLM 进行处理。再将 VLM 输出的答案与文本召回的 Chunk 一起交给后续的 LLM 进行处理。
目前我们提供了两种多模态能力。我们提供了两个多模态工具,供上层 Agent 自主决策调用哪个多模态能力。
•图片问答,用户输入图片,直接对图片内容进行问答、摘要、翻译等操作。
•图片检索,用户输入图片或者文字,利用向量检索召回相似图片。
我们还有一个文本搜索工具。这样让 Agent 自主决策调用哪个工具,甚至是多步的工具组合,我们可以让多模态检索 Agent 处理企业内各种复杂场景。举个例子,供应链管理人员收到仓库上传的异常货物照片,需要判断异常类型、查找历史处理案例,并获取应急处理流程。
评测数据
在公开数据集 DoubleBench 上,我们对比测评了 MDocAgent、Colqwen-gen、ViDoRAG、M3DOCRAG 等多模态问答系统。最终答案的准确性采用 LLM 作为评判标准进行评估。 GPT-4o 根据 0 到 10 的等级对生成的答案与真实答案的正确性进行评分。得分不低于 7 分的答案为正确,不高于 3 分的答案为错误,其余答案为部分正确。JoyAgent 的正确率达到 76.2%,优于当前其他多模态问答系统。
•Colqwen-gen:参照组,结果由 gpt-4o 直接回复生成(不采用 RAG)。
此外,我们还利用企业内部文档,包括培训资料,产品 RPD,运营计划构建了测试集,在 150 个 query,500 篇文档的测试集中横向对比了 coze,ima 和 JoyAgent。
未来计划
RAG 的未来发展将是多范式融合的持续演进。可以预见,未来的系统将无缝地集成 Agentic 和 GraphRAG 的能力,智能体将能够动态地决定何时从知识图谱中检索关系信息,何时调用外部工具执行复杂任务。同时,多模态能力的持续进步将使 RAG 系统能够处理并理解更加多样化的数据类型,从而真正成为一个能够理解和利用企业所有知识资产的综合性智能系统。
当然知识加工和知识检索知识知识库管理的第一步,利用知识生成知识,才是诗和远方。我们将继续沿着多模态 DeepSearch 的方向继续迭代,加深知识和文档管理层面能力建设。真正为企业内员工知识加工,知识检索,知识生成提供帮助。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/77d471f8a9543fae97b64d424】。文章转载请联系作者。







评论