写点什么

AI 评测

0 人感兴趣 · 3 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/d0/d092e39ec8f0427d99052b78ea09917e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

首个记忆幻觉评估框架 HaluMem 正式发布!

业内首个面向记忆系统的操作级幻觉评估框架——HaluMem。首创三阶段幻觉拆解机制(记忆抽取、记忆更新、记忆问答),构建覆盖 1M tokens 超长上下文的人机交互数据集,揭示主流记忆框架(Mem0、Memobase、Supermemory 等)在不同阶段的幻觉模式与传播规律。

AI 评测入门(二):Prompt 迭代实战从“能跑通”到“能落地”

本文分享了Prompt工程从初版到落地的5次迭代过程,强调Prompt是测出来的,不是写出来的核心理念

AI 评测 (AI Evaluations):比模型更大的护城河

开始构建你的评测体系,最好的时机是昨天,其次是现在

AI 评测_AI 评测技术文章_InfoQ写作社区