写点什么

哈尔滨工业大学教授苗东菁:AI Agent 与多模数据库

  • 2025-08-06
    浙江
  • 本文字数:4952 字

    阅读完需:约 16 分钟

哈尔滨工业大学教授苗东菁:AI Agent 与多模数据库

数据库


嘉宾介绍:

苗东菁,哈尔滨工业大学教授、博士生导师,CCF 数据库专委会委员、理论计算机科学专委会委员,黑龙江省大数据科学与工程重点实验室副主任。从事数据库系统、大数据计算与数据质量管理的基础理论研究。发表计算机领域国际顶级刊期、会议学术论文 40 余篇,包括 The VLDB Journal, IEEE Transactions on Knowledge and Data Engineering, Theoretical Computer Science, SIGMOD, VLDB, ICDE, COCOON, COCOA, AAIM, ICFEM, IPCCC 等。数据一致性管理基础理论和关键技术方面研究成果获得 2018 年中国计算学会优秀博士论文奖,2019 年 ACM SIGMOD CHINA RISING STAR AWARD 奖。主持 NSFC 面上项目《面向跨模型分析型负载的数据存储方法》、CCF-华为胡杨林基金数据库专项项目《压缩态数据向量化执行引擎》,作为骨干成员参研了包括国家基础研发 973 项目、国家重点研发计划、国家自然科学基金重大、重点项目在内的多个国家级项目。担任 COCOON、DASFAA、COCOA 等多个知名国际会议程序委员会主席、委员等,国际顶级算法期刊 Algorithmica Leading Guest Editor。

以下内容为哈尔滨工业大学教授苗东菁在中国计算机学会(CCF)、CCF CTO CLUB 联合数新智能共同主办的“多模态数据融合技术创新与落地实战”活动中演讲全文

感谢主办方中国计算机学会的邀请,以下分享我们团队在相关领域的研究思考与成果。作为学界研究者,部分观点可能存在争议,期待与各位探讨交流。

我们团队早期研究聚焦数据管理领域基础问题,涵盖计算复杂性与严格算法设计等方向。我们曾承担数据质量管理相关国家课题,彼时主要基于逻辑规则及推理开展研究,未采用当前深度学习技术,核心探索如何构建质量管理系统——包括选择一阶逻辑或其子类等逻辑体系(逻辑系统的选择直接决定系统表达能力及对劣质问题的覆盖范围)。但研究发现,表达能力增强会导致计算复杂度上升;尽管我们通过证明问题复杂性、研究具有理论误差保证的算法为系统构建提供指导,但这类基于逻辑的严格方法存在高效实现条件苛刻、落地灵活性不足等问题,在复杂现实场景中应用受限。

当前,基于深度学习的 AI 模型作为启发式近似计算工具,展现出更强的落地可行性,尽管其效果误差的理论保障尚未明确,但近期借助数论与群论工具解释神经网络及大模型动力学的研究,已显现理论突破的可能。因此,我们开始关注此类方法的应用及与数据管理领域的关联。

今年被行业称为所谓 “智能体的一年”,智能体技术与应用的发展正与数据管理领域深度交织,这也是本次分享的核心议题。

今年 1 月,我看到一则产业新闻,称京东已投入运行的智能体数量已超过七千个,各类公司也都有类似应用。包括一些不为大众所熟知的中小企业,而今年常被提及的观点是,单人公司会越来越多,即一个人借助智能体开展工作。

这些智能体在工作过程中不断产生数据并进行数据检索,在多模态场景下,如何以更低成本、更快速的方式构建 “甩手掌柜式” 数据底座,这对我们而言是一个机会,至少可作为一个研究方向。这一趋势也让早年的多模数据库概念重新焕发生机,只不过其实现方式已有所不同,例如对象数据库、多引擎聚合、联邦数据库中间件等。

但是到了今天,在 AI 领域发展的推动下,我们的兴趣可能更趋向于去做原生的方式。

这个就是很经典的架构。智能体可能还要区分一下,这个不是我们强化学习里面的智能体,更多的是基于大模型的智能体。对于基于大模型的智能体,我们的期待并不仅限于让它像以往那样提供简单的问答服务,而是希望它能够具备独立工作的能力,协助我们解决更多实际问题。

这里面有几个重要的能力,比如方案的规划运筹的能力。在规划能力的构建中,我们可能需要借助智能体过往的 “经历”,这就涉及到记忆模块的设计。它需要像人类一样,对过去的 “事件” 进行选择性记忆,并且能在这些记忆的基础上不断进行反思,反思完之后的 thoughts 也都能积累起来,然后在我们后续工作中的去检索使用。最后就是去实地调用工去解决实际的问题,比如说读邮件、写邮件、发送回复邮件这样一条龙的方式。

在这里,我们比较兴奋的一点就是看到记忆模块,这实际上就是我们数据库所要发挥作用的地方,包括底下的数据基建是要发挥的地方。

早期的像 Chat GPT,里面有记忆的功能,这是我跟我的学生在讨论一个事情。他们正好做毕业设计,在讨论一个标题,我就让 Chat GPT 记下来,于是它作为往智能体化这个服务形态去转换的大模型,它就会把你对话的内容选择记下来。

之后我就好奇继续打开它的记忆模块,会发现实际上用户过往的这些经历,它都会选择性的记下来,这就是在它之后为你服务的时候,可以提供个性化服务的依据,这是我们的所说记忆模块。

Open AI 的底层同样需要维护这样的数据基础设施,用于存储海量用户数据。我们发现其存储的数据具有两个特点:一是经过选择性筛选,二是存储内容中没有主语,仅保留了谓词部分,也就是说,在主谓宾的结构中,只包含谓语和宾语。尽管我们并不清楚其内部具体的运作机制,但基于这些观察,我们推测其数据可能是以知识图谱的形式构建的。

我们的基础大模型也都往智能体化去提供服务,像 Open  AI 今年就直接发布了两项功能,一个是 Deep Research 我们写论文都用,另外一个是前两天的 Agent。在这种情况下,我们为智能体构建的简单行为模型是这样的:每个智能体都有自己明确的目标,目标设定后,它会先观测当前的状态,然后决定下一步的动作:可能是生成执行计划,可能是调用相关工具,也可能是进行逻辑推理。完成这一步动作后,它会继续观察新的状态,并依次执行下一个动作,形成这样一个循环往复的序列。

当然有些论文就是通过一些测试,发现对于这样一个“观测-行动-记忆-再观察”的序列来说,如果你把它过往的经历存下来,之后将再继续回答问题,去检索过往的经验都会提高精度。

智能体阶段性工作完成了之后,我会把相应的事情或者观测或者事件写入存储系统的模块。写完了之后,我们会把这些过往的经历再进行一些反思,这些就会存下来,当我们再进行行为的时候,就会利用 read 模块去检测过往的相关事实,再改进我们的智能体的服务。

这一块目前落地的形式,实际上就是一种 RAG 的方式,比如 GraphRAG,比如说海马回等。但是本质上还是做数据的管理和检索。

这一块不光是文本知识库,可能还有图、多媒体,只不过现在落地的时候还比较有难度,也是我们未来技术发展的方向。这是我们组针对这样一个场景做我们的技术。

我们在调研中看到一些资料,举一个非常有意思的真实的例子,尽管它从某种意义上来讲,还不算是特别理想的智能体,更多的还是智能工作流。这里面就涉及到仓储的订单履约,订单的处理,还有库存调用,物流执行等管理,这是一个实际实现的智能体。


在这个智能体的实现过程中,有这么几个步骤:

第一个步骤订单解析:在订单的自然语言里面把备注字段拿出来,大模型进行解析之后,又去更新我们表里面相应的制作。这里面可能就需要我们用模型来解析,去做关系数据的 CRUD;

第二步需要在文档里面做相应的文本检索,在文档和关系数据数据里面进行融合的操作、查询等等,找到相应的产品文档,将产品文档和订单关联起来,这就是简单的融合的分析;

第三步调用工具预测未来可能的库存分配;

最后就是当我们完成这件事的时候,要更新知识,更新记忆。


我们从学术研究的去看了一些相关的实践,它是怎么实现的?

是在一个公司里面落地,他们是这样做的,就是人工预先写一个 SQL 囊括进 agent 的行为。

但是实际上,我们觉得未来的发展方向是 agent 从表格里读取数据后,智能体去写这个 SQL,通过了解环境以后去写 SQL。

所以说,我们还把它当做一个智能工作流,而没有把它视为真正的智能体。如果未来真正的智能体在工作的时候,我们认为应该是这样的实现方式。在这种方式下,我们认为随着智能体服务的实例越来越多,有 7 千个、8 千个、1 万个、100 万个,数据更新的压力以及多模型的更新的压力,跟现在会是大不相同的,因为现在很多场景人工去生成数据的速度肯定不如智能体的速度。同时,人工去写好查询的模版可预测的可构建的,这也是我们一直探讨的(实时)数仓的架构所依赖的一个前提。但是如果是智能体来自由、灵活地去写这些多模型融合查询的话,它可能对于现在的架构就提出了很大的挑战。这也是我们希望能做原生 HTAP 多模数据库的原因之一。

在这里面,其实还是有这样的 RAG 的重要的场景,在检索的时候要用业务知识来进行增强,对于检索的增强。在这里面,还有在我们看到的是文档还有订单的表达的数据,还有在智能体的经验里检索的时候,有 RAG 的数据,同时在智能体工作的时候,还会有对这些数据反向的更新。

比如当前智能驾驶场景中,系统能够实时查询空间位置并动态更新,再加上智能体的记忆功能,这些都是我们正在考虑的多模态融合应用场景。由于我们身处高校学术领域,相比从应用层面整合现有技术,更希望从底层原生的角度,深入探索多模数据库的构建逻辑与实现路径。


因此,在这些场景中,我们需要支持多模型、多模态的数据,其中向量数据涵盖图像、文本等内容,且主要以向量形式存在。这对我们提出的核心要求,除了实现数据的融合汇聚,实时交互也是极为关键的环节。因为大量智能体在线进行反向更新时,系统性能至关重要,而这背后的核心原因,正是这些场景对结果的 “新鲜度”有着极高的要求。

我们再从系统的角度考古一下多模数据库的评估系统,如今,我们能看到数据库朝着平台化发展,追求大而全的功能覆盖;从我们单独看数据库管理系统的角度来说,一是通过多种引擎结合的方式,这在过去,已有国家基金项目围绕此方向开展研究;二是在同一套数据库中,集成不同的搜索引擎等组件来适配多模态数据需求。

到单引擎的方式,也有现在比如说在 AWS 上面挂的 ArangoDB、OrientDB 这些,它也是一种单引擎单数据库,通过拓展的方式把所有的其他的模式转化成 KV,像某些公司也做大的 KV 系统,在业务组织的时候构建相应(join)视图。

我们想追求最灵活、效率最高、最极致的形式就是这种原生的方式,我们现在希望总引擎一套架构去把数据融合,同时提供 ACID 和实时交互。

但是现在做多模,很多的行业的做法,是从上层统一产品,从行业的角度从普及客户的角度去兼容现有的系统。现有的这种多引擎联合的方式,可能不同的模态产生不同的数据库。也有单引擎存储的方式,比如全都转换成关系、转化成文档、转换成知识,都有各自的优缺点,这个显而易见。

还有就是我们刚才说的 KV 的方式。我们也简单列了一下优缺点,从我们研究的角度实际希望的是追求甩手掌柜式的状态。

我们在探索的过程中,我们自己还是在做双模态的图-关系数据库存储引擎。我们现在大概在做一个原型,9 月份可能还会融合文档,基于 LSM-Tree 的底层架构去融合这些工作。

上面是我们去年被 VLDB 接收的论文,这也是我们针对 HGTAP 性能,去融合其他的模型走的第一步。我们在关系、表这一块有很多的 LSM-Tree 的架构,可以达到高吞吐。但是在图数据库方面还未达到这种性能,于是做了图上 HTAP 的这个工作。

尽管今年再搜索就有 11 篇相关的论文了,但我们依然觉得我们的 idea 是这其中最好的。大家都在做这样的一个性能,就是能够提供图的高动态的更新,同时给他最高新鲜度的查询,我们希望在原生单引擎下直接去工作。

我们做这样一个图的 CSR 的存储,加上 LSM-Tree 的融合。目前我们在论文里做了这样的试验,就是我们用了比较经典的 LDBC 工作负载做了 8 个常用的分析算法试验,包括 BFS(广度有限搜索),三角计数等等这些重要的操作,这也是 RAG 里面一些常用的查询。

我们的性能实际上就是三方面:

一方面是图事务吞吐量,更新的时候,图也可以动态更新,能支持成千上万 agent 实时更新。

二来是分析负载处理。在这种吞吐量的情况下,我们对于算法的分析性能能不能达到保持新鲜度的要求,得益于我们把 CSR 和 LSM-Tree 进行融合以后,我们的算法和分析的性能是高于开源的引擎。

最后是我们在整体的 HGTAP 上的表现,我们可以看到同时有大批量吞吐的时候,同时还有大规模分析查询的时候。我们表现的稳定性非常高,其他系统不乏假死状态。这就是我们在几个主要算法上进行 HGTAP 的测试。

目前,我们正致力于将这类引擎与基于关系引擎的架构进行融合,不过相关开发工作尚未完成。在现有架构的基础上,我们还尝试通过基于压缩数据的方式来提升 LSM-Tree 的性能,以此更好地支撑多引擎的融合工作,这正是我们当前投稿 VLDB 的重点内容,也是与华为数据库组合作预研的工作。

谢谢大家!


用户头像

一站式多云AI原生数智平台 2022-12-05 加入

数新智能是一家专注于一站式多云AI原生数智平台和数据价值流通的服务商。公司自主研发的核心产品主要包括赛博数据平台CyberData、赛博智能平台CyberAI、赛博数智引擎CyberEngine、AI一体机CyberGPT。

评论

发布
暂无评论
哈尔滨工业大学教授苗东菁:AI Agent 与多模数据库_数新网络官方账号_InfoQ写作社区