活动回顾 & PPT 下载|大模型背景下私域知识库的构建和可信问答 Meetup 完美收官!
11 月 9 日,由 OpenSPG、TuGraph、DB-GPT 开源社区联合主办的 SIG Meetup 在上海蚂蚁 S 空间成功举办。
本次活动结合三大开源项目——TuGraph 图数据库、OpenSPG 知识图谱、DB-GPT——如何协同发挥作用,帮助用户构建一个从数据存储、语义结构化知识组织,到大模型增强生成的智能私域知识库系统,从而推动数据管理与智能问答的深层次应用。
讲师演讲 ppt 获取链接:
https://github.com/orgs/OpenSPG/discussions/45
开场
本次 SIG Meetup 由蚂蚁集团知识图谱团队负责人梁磊担任主持人,梁磊首先对线下线上同学的到来表示欢迎与感谢,其次回顾了团队围绕“知识图谱与大模型结合”所做的努力与尝试,以及对未来垂直领域落地的期待。
知识图谱团队负责人 梁磊
同济大学特聘研究员、博士生导师王昊奋进行开场致辞,王昊奋表示社区的发展需要大家的共同努力,他鼓励大家充分利用宝贵机会,积极交流、聆听并贡献自己的想法与建议,期待更多的思想碰撞与启发。
同济大学特聘研究员、博士生导师 王昊奋
内容分享
KAG:一种知识增强的私域知识库可信问答框架
接下来进入演讲阶段,首先,来自蚂蚁集团高级技术专家、KAG 架构师桂正科,为我们分享了 KAG 技术架构的深度解读,以及 KAG 在风险挖掘、多跳问答、医疗问诊等不同场景下的应用。
蚂蚁集团高级技术专家、KAG 架构师 桂正科
**讲师演讲视频链接:**https://www.bilibili.com/video/BV1eMUVYRE6D/?
KAG 是源于医疗、政务等蚂蚁集团核心业务场景打磨并沉淀的一种知识增强的私域知识库可信问答框架,其技术架构独具特色:
kg-builder 实现对大型语言模型(LLM)友好的知识表示,在 DIKW(数据、信息、知识和智慧)的层次结构基础上,升级 SPG 知识表示能力,在同一知识类型(如实体类型、事件类型)上兼容无 schema 约束的信息提取和有 schema 约束的专业知识构建,并支持图结构与原始文本块之间的互索引表示,为推理问答阶段的高效检索提供支持。
kg-solver 采用逻辑符号引导的混合求解和推理引擎,该引擎包括三种类型的运算符:规划、推理和检索,将自然语言问题转化为结合语言和符号的问题求解过程。在这个过程中,每一步都可以利用不同的运算符,如精确匹配检索、文本检索、数值计算或语义推理,从而实现四种不同问题求解过程的集成:检索、知识图谱推理、语言推理和数值计算。
kag-model 部分,希望基于小模型(如 qwen2.5 3B)sft、得到效果媲美(稍弱于)70B 规模大模型的能力;同时资源占用显著降低。Kag-model 将在后续版本开源发布。
KAG 在多跳问答数据集上表现出色,在内置方案中,多跳问答数据集较之 sota 方案,在 2wiki 上 F1 相对提升 33.5%,在 hotpotQA 上相对提高 19.6% 。
在蚂蚁应用中,KAG 广泛应用于多个领域:
在政务办事方面,可提供社保地转移等信息查询;
在金融领域,能进行银行风险分析;
在医疗健康领域,可解答孕期口腔问题对宝宝健康的影响等问题;
在生活热点方面,能解读 LPR 下调等事件;还能作为健康管家,解答体内影响快乐的激素等科普问题,充分展示了其在实际应用中的多样性和实用性。
MedSPG:高血压诊疗领域层次化知识建模与多步推理决策
来自北京邮电大学博士研究生周庚显为我们重点介绍致力于解决高血压诊疗领域的知识建模与推理决策问题的 MedSPG。
北京邮电大学博士研究生 周庚显
**讲师演讲视频链接:**https://www.bilibili.com/video/BV1agUVYWE9u/?
基于 OpenSPG 提出的 MedSPG,设计层次化多元诊疗知识表示体系,实现复杂逻辑推理知识的表达和推理,构建规则描述语言和后向推理引擎,实现高效知识推理和便捷规则维护。
**MedSPG 的研究任务聚焦诊疗知识库构建与诊疗逻辑推理两大方面。**诊疗知识库构建方面,重点关注垂域专科诊疗知识的表示问题;诊疗逻辑推理方面,重点关注基于医学知识的多步逻辑推理问题。
研究方法:
诊疗知识库已经构建:已收录知识 1000+条。覆盖疾病 142 种,高血压特殊人群 10 类 ,用药规则 500+ 条。
另外采用层次化多元知识建模,分为实例层、概念层与推理层,分别负责存储患者数据、建模概念知识和表达决策规则,以此全面整合诊疗知识。
在推理方面,SPG 后向推理独具特色。规则描述语言能直观表示原子规则,便于定义各类诊疗规则及优先级。
后向推理引擎从决策目标出发,将其分解为子目标,实现高效准确的多步知识推理,有效解决高血压诊疗中的复杂逻辑推理问题,为精准决策提供有力支持。
MedSPG 实验构建高血压患者案例数据库,设置多项诊疗评估任务并通过专家提供决策金标准。经案例分析,如 50 岁男性患者案例,展示其准确判断病情及给出合理用药方案的能力。性能对比中,以图表呈现各模型表现,表明 MedSPG 在血压水平分级、风险因素分层和联合用药方案等方面有优势,能为高血压诊疗提供更精准决策,相比其他模型在该领域决策能力更优并且有更好的可解释性,有助于提升诊疗准确性与科学性。
大模型辅助下奶业金融风险预警事件图谱构建方法研究
来自内蒙古大学计算机学院教师,博士、研究生导师——安春燕为我们重点介绍了“针对奶业金融风险预警事件图谱“
内蒙古大学计算机学院教师,博士、研究生导师 安春燕
**讲师演讲视频链接:**https://www.bilibili.com/video/BV1PamXYUEqe/?
奶业金融预警事件图谱构建流程涵盖多方面:
1. 使用 SPG-Builder(数据导入与实例构建)将 CSV 文件导入系统,生成事件实例并将其映射到图谱中。
2. 包括对实体(如自然人、企业)、事件(原子事件、预警事件)、概念(如企业分类、行政区域等)的知识建模。使用 SPG-Schema 将不同的元素组织起来,形成清晰的图谱结构,支持复杂事件的定义和查询。
3. 规则定义与推理规则模块:用于定义图谱内的规则,如事件之间的“belongTo”和“leadTo”关系。SPG-Reasoner:通过加载规则,实现事件推理与传导,辅助自动生成风险预警事件节点。
4. 图谱构建与前端系统。事件图谱构建:结合 SPG 组件,生成并扩展奶业金融风险预警事件图谱。前端可视化系统:支持图谱的可视化展示、查询功能以及规则的修改,便于用户进行交互和分析。
在奶业金融风险预警事件图谱构建中,KAG+LLM 双重驱动发挥着关键作用。
首先是 LLM 友好的知识表示,利用 KAG 的知识抽取、属性标化和语义对齐技术,融合原始业务数据与专家规则至图谱。且图结构与原文片段互索引,便于追溯风险来源,增强解释性分析;
LLM 辅助下的事件抽取意义重大。以特定指令引导模型,如 GLM - 4,从文本中精准抽取符合 schema 的事件,经 LoRA 微调、数据增强等手段,有效提升抽取的准确性与完整性;基本三元组抽取同样依赖 LLM,像 Baichuan2 - 13B - base 等模型,从文本识别实体,经数据增强和微调阶段,不断优化抽取能力,为图谱构建提供基础元素。
此外,还包括事件对齐 & 事件更新、知识图谱推理以及基于 EG+LLM 的预警策略解释生成等任务。通过这些技术,能更全面地捕捉奶业金融领域事件信息,提升图谱质量,从而更精准地进行风险预警,为奶业金融风险管理提供有力支持。
TuGraph 5.0:面向 AI 时代的图存储能力增强
来自蚂蚁集团的图计算技术专家王志勇分享了「TuGraph-DB 5.0:面向 AI 时代的图存储能力增强」。
蚂蚁集团图计算技术专家 王志勇
****讲师演讲视频链接:https://www.bilibili.com/video/BV1eomRYgE1B/?
王志勇介绍了由蚂蚁图计算团队研发并开源的高性能单机图数据库 TuGraph-DB 5.0 版本,该版本在研发过程中针对 AI 时代的图存储能力进行了多项增强,主要包括支持 Schema-Free、向量检索和全文检索功能。王志勇指出:“如果用一个词来形容 TuGraph-DB 5.0 版本的特性,那就是 GraphRAG 。”
GraphRAG 作为一种结合了知识图谱和图计算技术的新型检索增强生成模型,具有显著的技术优势和应用潜力,是图数据库在 AI 领域的重要应用场景。为了满足 GraphRAG 的需求,TuGraph-DB 在 5.0 版本中增加了几个关键特性。
图数据库本身具备图搜索功能,而图搜索、向量检索与全文检索则是提升大模型回答准确性的重要手段,用户可能会同时需要这三种检索方式。然而,如果分别维护三套存储系统,会带来数据一致性问题和多次查询的麻烦。因此,TuGraph-DB 5.0 版本融合了这三种检索方式,基于图数据库增加向量检索和全文检索,最终实现单个系统内的一体化混合检索。通过这样的设计,可以简化 GraphRAG 的工程架构,使查询过程变得更加简便高效。
利用图技术重塑金融反欺诈的探索实践
蓝象智联合伙人、算法科学家毛仁歆分享了「利用图技术重塑金融反欺诈的探索实践」。
蓝象智联合伙人、算法科学家 毛仁歆
**讲师演讲视频链接:**https://www.bilibili.com/video/BV1mbmRYbEYi/?
毛仁歆介绍了在多个项目底层图引擎选型的过程中选择 TuGraph 图数据库,并通过案例分享了图计算在金融反欺诈中的聚集性风险和准实时套现识别场景的实际应用。
在金融反欺诈环节中,设备反欺诈、反欺诈模型、人工核查均可使用图技术进行升级,从拓扑结构来看金融场景的数据资产,可以基于图结构在反欺诈场景中进行以下尝试:
分析洗钱资金的闭环:更有效地识别和预防洗钱活动;
提高对聚集性风险的关注:从而提升识别和防范欺诈行为的能力;
通过分析每笔交易和每个账户的第一笔交易,追踪资金来源;
尝试使用链接预测(Link Prediction)来预测交易发生的概率,有效提升金融反欺诈的准确性和效率;
网络活跃性代替行为活跃性来寻找僵尸账户。
在图和隐私计算结合的领域,通过案例分享展示了如何使用 GraphPSU 技术实现图逻辑的合并。同时,通过加密方式在两端共享图数据,以确保在保障数据安全的前提下进行数据的融合与利用。
Graph+AI:DB-GPT GraphRAG 架构探索与演进
来自蚂蚁集团的图计算开源负责人、图计算布道师范志东分享了「Graph+AI:DB-GPT GraphRAG 架构探索与演进」。
蚂蚁集团的图计算开源负责人、图计算布道师 范志东
**讲师演讲视频链接:**https://www.bilibili.com/video/BV1GJmRYvEg8/?
范志东首先介绍了由蚂蚁集团和之江实验室牵头制定的《GraphRAG+AI:大模型浪潮下的图计算》白皮书,白皮书中重点探讨了图计算与 AI 如何在数据、算法和应用三个维度互相补足。然后结合人工智能领域的三大流派(符号主义、连接主义、行为主义)剖析了各个流派的技术特点以及交叉领域的研究方向,尤其是符号主义与连接主义的结合,正是 GraphRAG 和 KAG 的理论基础。
后续范志东结合 DB-GPT GraphRAG 框架的社区故事和技术演进路线,阐述了通用 RAG 框架的设计理念、社区摘要增强的 GraphRAG 的原理分析,以及未来 GraphRAG 的建设思路。
目前图算法种类繁多,如二跳图特征、路径特征、社区特征、重要性特征等。范志东指出,不同的图算法有一个共同特征:随着大模型技术的兴起,使用知识图谱运行图算法的成本远低于让大模型理解图的原始数据的成本。因此,从这个角度来看,我们可以通过图算法来加速大模型对知识图谱结构的理解。
在多模态话题上,TableRAG、StructRAG 在表格理解和结构化数据分析方面有比较不错的改进思路,以及 MyGO 多模态知识图谱框架等。范志东认为,多模态 RAG 的建设可以在于对文本的良好理解基础上,再进行多模态功能建设。与此同时,结合多模态数据处理技术的发展,TuGraph 也有多个扩展方向,包括向量检索、全文检索,以及对多模态数据碎银的支持等。
GraphRAG 在 DB-GPT 中的实践与咨询行业应用案例分享
DB-GPT 是一款 AI 原生的数据智能应用开发框架,致力于让围绕数据库构建大模型数智应用更简单便捷。DB-GPT 社区主要负责人、核心开发者陈柯廷首先为大家介绍了 DB-GPT 社区的发展:
**讲师演讲视频链接:**https://www.bilibili.com/video/BV1HzmRYQEot/?
自去年开源以来,DB-GPT Star 数达到 13.7K+, 社区贡献者超过 100 人,除蚂蚁内部外,还有京东、美团、阿里、唯品会等核心开发者参与社区。同时,陈柯廷为大家介绍了 DB-GPT 的整体架构,并探讨了 DB-GPT 和 Llama-index 以及 Langgraph 的差异化价值,最后他深入探讨了 DB-GPT 结合 GraphRAG 的企业落地实践。
DB-GPT 社区主要负责人、核心开发者 陈柯廷
第二部分,由 DB-GPT 的社区好朋友 Bruce 为大家带来分享,他是来自某全球顶尖外资咨询公司的全栈 LLM 工程师。
某全球顶尖外资咨询公司的全栈 LLM 工程师,DB-GPT 的社区好朋友 Bruce
他分享了 GenAI 在整个高科技价值链中发挥了重要价值,在这个生成式 AI 的时代下,现代数据基础正在被重新塑造。**Bruce 为现场观众分享了 3 个案例:**包括药品研发数据对话式分析、销售数据向导以及测试用例生成。最后,他站在 LLM 架构师的视角分享了数据基础设施在强化 GenAI 新能力方面需要关注的技术点。
KAG 共建
目前 KAG 还处于早期阶段,诚邀对知识服务和知识图谱技术感兴趣的用户和开发者加入我们,共建新一代 AI 引擎框架。我们建立了 OpenSPG 技术交流群,欢迎大家添加小助手微信加入:jqzn-robot。
OpenSPG 是一个语义增强的可编程知识图谱:
https://github.com/OpenSPG/openspg
KAG 是一个知识增强生成的专业领域知识服务框架,KAG 依赖 OpenSPG 提供的引擎依赖适配、逻辑推理执行等能力:
https://github.com/OpenSPG/KAG
🌟 欢迎大家 Star 关注~
版权声明: 本文为 InfoQ 作者【可信AI进展】的原创文章。
原文链接:【http://xie.infoq.cn/article/9005cd4eb3ca218be3713378c】。文章转载请联系作者。
评论