写点什么

直播回放 & 课件下载| 让 AI 真正读懂业务:多模态 RAG 知识平台建设思路

作者:MatrixOrigin
  • 2025-08-08
    上海
  • 本文字数:1935 字

    阅读完需:约 6 分钟

直播回放&课件下载| 让AI真正读懂业务:多模态RAG知识平台建设思路

上周五,矩阵起源研发 VP 赵晨阳围绕“多模态 RAG 知识平台”展开分享,结合电商与大数据平台实践,深入解析了从文本、图像到结构化表单的多源数据如何转化为可用知识。

分享内容涵盖知识抽取、多模态融合及智能平台落地路径,并通过真实案例展示如何有效支撑业务决策,推动企业知识体系智能化升级。

 

错过直播的朋友可以通过以下链接收看视频(手机微信扫码一键直达)

https://weixin.qq.com/sph/Ap3sSyVc7

关注矩阵起源公众号,后台回复关键词:“多模态知识平台”,即可免费领取完整 PPT!

 

附:技术亮点回顾与热点问题深度解答

问题 1:咱们这个叫企业级知识体系,一个知识平台如何解决企业里的所有场景?四类场景要求各不相同,尤其是 L3 和 L4 每个领域每个场景文档的个性化要求太强?

回答: 我们主要通过引入小模型技术来解决特定专业场景的问题。目标是提供一个闭环解决方案,尤其适用于基于中小规模模型的企业。我们会部署非常小的专业模型来处理特定场景的挑战。后续方向是构建智能体系统(Agent),以减少人力投入,让人更多地扮演监督反馈角色,指导系统不断挖掘数据价值。系统会提供信息,人给予反馈(如信息是否正确可用),通过反馈持续优化智能体系。这涉及到公司的核心能力。虽然实现不易,但目标是可达成的,预计优化周期在 4 到 6 个月,之后逐步在平台上上线。

问题 2:知识图谱贵,考虑提高问答准确率来说,性价比高吗?

回答: 从我角度看,性价比不高,尤其当你的场景数据量不大(比如几百份文档)、更新频率不高时。用其他方法(如直接检索)回答销售问题完全没问题。但如果数据量巨大,构建知识图谱的过程本身就很漫长且成本高,图谱检索的资源消耗也大。此外,如果海量数据持续更新,维护知识图谱质量就更没必要了,有更好的替代方案。

问题 3:多模态是提取文字吗?还是直接把视频向量化?

回答: 我们的目的是将视频内容(如医学视频)深化为文字。从模型角度看,向量化发生在模型生成内容之前的特征提取阶段。例如检索图片,本质是在系统中对图片内容进行向量化表示。理想情况下,我们希望所有模态(文本、图像、视频)都在同一个向量空间下处理。

问题 4:传统的 PDF 处理如何结合小模型和多模态大模型?推荐哪个效果比较好?

回答: 传统 PDF 分扫描件和结构化文档。结构化 PDF 处理技术比较成熟,但挑战在于处理扫描件和其中复杂的布局(如表格)。传统规则化方法项目多、界面复杂,效果不佳。因此我们更推荐采用协作方案:结合 OCR 识别技术、布局分析模型(小模型)以及大模型,综合理解文档内容。传统单一模型能力有限,投入产出比低(如投入 3-4 亿效果也未必好),而结合方案能在内容理解上更快收敛。

问题 6:在 RAG 中有没有尝试过用 Deep Research 呢,有哪些实践经验可以分享?

回答: Deep Research 的思路是不断深化问题理解。这类似于某些场景中系统先深入理解问题,挖掘其潜在方向和相关子问题,然后基于这些方向进行更精准的检索,再将检索结果整合。整体思路是(像家庭教育一样)层层递进、深化探究。

问题 7:知识库中的文档需要打标签嘛?还是说只要分段存储就可以搜索到?

回答: 核心是文档需要被切分(切片)。标签不是必须的,关键是切分得足够细(分布非常小)。检索时,我们主要依赖的是文档内容的向量表示和切分后的片段。标签(如果存在)更多是为了辅助管理和特定场景(如按主题分类检索),但基础搜索能力主要依靠分段(切片)存储和向量检索。

问题 8:怎么打标签?标签的内容以什么为主?

回答: 打标签的方式可以简单也可以复杂,取决于目的, 标签构建的方式以及组织形式和场景有密切关联。最终目标是让文档或其内容片段(切片)能通过标签有效地被关联和召回,从而提高检索的相关性。在这个基础上,可以用精排模型进行筛选和结果提升。标签内容通常以主题、实体、关键概念或自定义分类为主,目的是建立有效的关联。

问题 9:会把图片里的 object 比如头像等直接存到知识图谱里嘛,还是知识图谱里存的都是文本实体?

回答: 目前知识图谱中存储的主要是文本实体。直接存储图片中的对象(如头像、衣服颜色)到图谱中非常复杂且成本高昂,尤其当对象数量巨大时(如几万人)。当前更实际的做法是:在图像处理阶段,生成对图片内容的文本描述(结构化描述),然后将这些描述文本作为实体或属性存入知识图谱,并在图谱中建立它们之间的关系。

问题 10:视频模态的数据怎么做 RAG 呢?

回答: 核心挑战是在问答时如何精准提取长视频(如 10-20 分钟)中的相关片段。当前比较可行的保守方案是:

● 依赖视频本身的元数据/字幕/描述: 如果有结构化的描述、字幕或预先生成的标签,可以直接利用这些文本信息进行 RAG 检索。

● 关键帧提取+图像分析: 利用成熟的算法提取关键帧,再对关键帧进行图像分析(目标检测、场景识别等),生成描述文本,然后基于这些文本做 RAG。

 

用户头像

MatrixOrigin

关注

还未添加个人签名 2021-12-06 加入

一个以技术创新和用户价值为核心的基础软件技术公司。

评论

发布
暂无评论
直播回放&课件下载| 让AI真正读懂业务:多模态RAG知识平台建设思路_MatrixOrigin_InfoQ写作社区