写点什么

首个记忆幻觉评估框架 HaluMem 正式发布!

  • 2025-11-14
    上海
  • 本文字数:1597 字

    阅读完需:约 5 分钟

首个记忆幻觉评估框架 HaluMem 正式发布!


在和 AI 长期相处的过程中,你可能发现它偶尔会“记错人”:昨天刚告诉它我喜欢黑咖,今天它却推荐了焦糖拿铁;上周说好要去成都旅游,它却在记忆里写成了长沙。


图 1 记忆系统中操作级幻觉的示例


这些看似小小的“记忆偏差”,其实正是当下 AI 系统中最隐蔽、最难察觉的风险之一——记忆幻觉(Memory Hallucination),其中包括:

  • 记忆提取幻觉:从对话中抽取关键信息时,可能错误或虚构事实

  • 记忆更新幻觉:修改旧信息时,可能错误或遗漏更新;

  • 记忆问答幻觉:引用记忆回答问题时,可能调用了错误记忆或编造细节。

    而幻觉,往往正是在这些环节中被“生成”或“扩散”的。


这些幻觉一旦发生,会在系统内部累积、传递、放大,最终影响 AI 的回答。于是我们看到这样的现象:“AI 越聊越熟,却越说越不对。”


HaluMem:首个面向记忆系统的幻觉评估框架正式发布!


记忆张量(MemTensor)联合中国电信研究院正式发布业内首个针对 AI 记忆系统的幻觉评估框架 —— HaluMem


首日发布已登顶 Hugging Face Papers Daily & Weekly TOP 1。



📄 论文已上线 Hugging Face Papers:https://huggingface.co/papers/2511.03506


我们希望通过 HaluMem 助力:

每一个智能体都能知道自己,是“在哪一步开始记错的”。


三阶段幻觉拆解机制

不同于以往只能评估整体表现的黑箱方法,HaluMem 首创了,并将记忆过程拆分为三个关键阶段:

  1. 记忆抽取(Extraction):AI 是否正确抓取关键信息?

  2. 记忆更新(Update):在修改旧信息时是否出现误写或偏差?

  3. 记忆问答(Usage):AI 回答问题时是否调用了正确记忆?


这种“操作级”评估方式,能够精准定位幻觉来源,让开发者真正理解——模型是在哪一步开始出现问题。


极限长上下文测试:还原真实交互

HaluMem 构建了覆盖 1M tokens 的超长上下文数据集,系统性地揭示主流记忆系统(Mem0、Memobase、Supermemory 、Zep 等)在不同阶段的幻觉模式与传播规律,模拟真实人机交互场景。

数据集包含多维人格、事件更新、关系演化等复杂场景,用于系统揭示幻觉的传播规律。


实验结果:主流记忆框架的幻觉表现

HaluMem 构建了覆盖 1M tokens 的长上下文数据集,并对主流记忆系统(Mem0、Zep、Memobase、SuperMemory 等)进行了系统评估。


以下为首轮实验结果(幻觉率越低越好):

从结果可以看到:

  • 记忆抽取与更新阶段 是幻觉的主要集中点,占总误差约 70%;

  • MemOS 依托结构化记忆与偏好记忆机制,幻觉率降低超过 40%;

  • 具备上下文调度与异步记忆机制的系统,在问答阶段表现显著更稳。


换句话说,HaluMem 不只是评估框架,更是一面镜子,照出了每个记忆系统在「哪里容易出错、怎么改进」的真相。


框架特性亮点


为什么这很重要?


过去,我们关注模型“说得对不对”;现在,我们要关注模型“记得对不对”。


HaluMem 的出现,让 AI 记忆系统首次具备了“自检”与“溯源”能力。


它可以帮助:

  1. 医疗类智能体——减少记忆冲突,提升诊断一致性;

  2. 情感陪伴类 Agent——防止“人格漂移”;

  3. 企业知识助理——保持知识更新与问答逻辑统一。


这意味着,AI 不再只是“会回答的问题机器”,而且能在长时间学习中持续修正自己的记忆与行为逻辑。


开放数据、开放未来


HaluMem 的评测集与代码现已全面开源,开发者可在 Hugging Face 或 GitHub 上快速复现与验证实验。


🔗 论文地址:

https://huggingface.co/papers/2511.03506

📖 GitHub 地址:

github.com/MemTensor/HaluMem


📣 如果你也关注记忆系统与幻觉问题,

欢迎到 Hugging Face 为 HaluMem 投票支持,让更多开发者加入「让 AI 记得更准」的行动。


⬇️ 点击投票 | Vote for HaluMem on Hugging Face:

https://huggingface.co/papers/2511.03506




关于 MemOS

MemOS 为 AGI 构建统一的记忆管理平台,让智能系统如大脑般拥有灵活、可迁移、可共享的长期记忆和即时记忆。

作为记忆张量首次提出“记忆调度”架构的 AI 记忆操作系统,我们希望通过 MemOS 全面重构模型记忆资源的生命周期管理,为智能系统提供高效且灵活的记忆管理能力。



发布于: 1 小时前阅读数: 7
用户头像

还未添加个人签名 2025-11-11 加入

还未添加个人简介

评论

发布
暂无评论
首个记忆幻觉评估框架 HaluMem 正式发布!_大模型_记忆张量MemTensor_InfoQ写作社区