写点什么

思维链的陷阱:智源 FlagEval 评测揭示推理模型真实能力与安全隐患

作者:智源研究院
  • 2025-11-11
    北京
  • 本文字数:3540 字

    阅读完需:约 12 分钟

思维链的陷阱:智源FlagEval评测揭示推理模型真实能力与安全隐患

推理模型正热,但它们真的“更智能”了吗?


为深入揭示大模型的推理能力与行为表现,智源 FlagEval 智能评测组联合北京大学多媒体信息处理全国重点实验室,依托过往评测实践经验与技术积累,历时半年多,系统性重构了面向推理能力的评测体系。团队不仅设计了多维度的评测方案,还专门构建了一套从未出现在主流大模型训练过程中的评测数据,力求以科学、公正的标准还原模型的真实水平。


本次评测涵盖了逾 60 组模型设定,既包括前沿闭源大模型,也覆盖了多个开源方案,形成了大规模、多维度、主客观结合的推理能力评测体系。


结果发现,尽管模型的文本问题解决能力有所提升,但普遍暴露出四个值得高度警惕的深层问题:


  • 思考与答案不一致:模型呈现的推理路径与其最终答案之间存在显著不一致,其“思考”过程并不能有效支撑结论

  • 假装使用工具:模型声称调用外部工具以增强能力,但评测发现大量调用链为无效或虚构,并未发生真实的工具交互

  • 视觉推理短板:涉及图文理解与视觉推理时,模型的综合推理能力不足

  • 思维链中存在安全漏洞:推理过程不仅可能泄露敏感信息,甚至可被恶意诱导,产生超越其权限的推理行为,构成新的安全隐患


我们认为,未来推理模型的评测标准需“只看结果”转向“过程与结果并重”。不仅要问“答对没”,更要问“怎么想的、过程是否可靠、安全有没有漏洞”。只有这样,才能真正衡量推理模型的真实能力与可用边界。


1 当 AI 学会“思考”


近一年,大语言模型(LLM)相继推出了具备“深度思考”特性的推理模型(Large Reasoning Models,LRMs)。它们在给出答案前,会展示复杂的思考过程,试图解决更高难度的任务。我们好奇:当下的推理模型究竟强在哪里、又面临哪些问题与挑战?


为了回答这一问题,我们开展了多维度推理模型评测分析,并将结果整理成了多维度推理模型评测报告。我们选取了几乎所有主流模型,包括最新的 GPT-5、Gemini 2.5 Pro、Claude Sonnet 4、DeepSeek R1/V3.1 等系列,在全新构建的、几无污染的评测数据上,跨越文本和视觉两大维度,进行了一次较为全面的评测。



2 直观表现:模型性能全景


我们通过两张综合图表,直观呈现各大顶尖模型在文本与视觉两大任务上的综合表现。


图的纵轴代表“准确率”(越高越好),横轴代表“思考所用的词数”(tokens used,越低代表思考过程越高效)。因此,位于“左上方”的模型综合表现更优。


准确度-效率散点图-文本评测综合表现


准确度-效率散点图-视觉评测综合表现


从图中我们可以看到:


  • 文本任务(上图):GPT-5 系列全面展现出卓越的问题解决能力,牢牢占据第一梯队 。

  • 视觉任务(下图):Gemini 2.5 Pro 在综合准确率上略微领先,而 o4-mini 和 GPT-5 则在准确率和 token 花费之间取得了相对更好的平衡。


然而,在高分的背后,我们通过对推理过程的细致分析,除了广受诟病的过度思考、推理冗余问题之外,发现了一些更值得注意的现象。


Gemini 2.5 Pro 推理与回答一例


3 值得留意的现象


1. 思考与答案不一致


我们观察到一个普遍存在、且值得关注的现象:AI 的思考过程与最终答案之间有时并不能完全对齐。这种“言行不一”主要体现在两个方面:


  • 思考结论与答案相悖:在一些案例中,模型在推理过程最后得出的结论,与它最后输出给用户的答案并不相同,甚至完全矛盾。图 2 中给出一组来自 Gemini 2.5 Pro 的例子。通过 LLM 辅助分析发现,类似现象在不同类型的问题中出现的频率也有所不同,例如在一些解谜类问题(表 1 上)上 Gemini-2.5 系列、Phi-4-Reasoning-Plus 以及 Qwen-3 早前的版本都会在 10%以上的求解过程中出现思考结论与最终答案不符的现象。

  • 置信度与答案不符:有些问题下,模型的思考过程明确表露出对问题的不确定性(例如,使用“也许”、“我不确定”等表达),但最终却给出了一个异常确定和自信的答案 。这种置信度方面的不确定性普遍存在于所有本次评测的模型,尤其会出现在难度较高的谜题或者考察长尾知识的问题(参见表 1)。


这种现象普遍存在于我们测试的几乎所有 LRMs。这意味着,即使用户能看到模型的“思考过程”,也可能无法真正了解它究竟如何得出最终结论,无疑增加了我们监测和信任模型的难度。



表 1 思考过程行为分析(上:NPR 风格谜题求解类问题;下:长尾事实性问题)结果显示,思考与回答答案不一致(inconsistent answers)与置信度不一致(inconsistent certainty)现象普遍存在


2. 假装使用工具和网络搜索


你是否想过,当你通过 API 方式查询 AI 一些涉及事实性信息的问题时,它回答“我上网搜索了一下”,这背后是真的进行了搜索和信息整合吗?


我们的评测发现:不一定。


我们发现,许多顶尖的推理模型,即使在没有权限访问外部工具或网络的情况下,也会在思考过程中“假装”自己进行了搜索或执行了代码。例如,通过 LLM 辅助分析发现,在回答一些长尾事实问题时 Gemini 2.5 Pro 有高达约 40%的情况(参见表 2 上)声称自己进行了网络搜索来获取信息,但实际上这些搜索并未发生,我们核验发现很多“检索结果”纯属凭空编造。在处理一些视觉问题时,Gemini 系列也经常会“假装”自己做了“逆向图片搜索”(inverse image search)、从网上发现了原图,然后相当自信地给出一组错误回答。


这一现象在针对照片进行位置推理的问题上尤其明显,Gemini 2.5 Pro 在近 65%的思考过程中提及自己进行了文字或图片搜索(参见表 2 下;图 3 给出了一个具体实例,表明搜索实际并没有进行)。这种“工具幻觉”极大影响了模型的可靠性,用户很难界定哪些信息是真实检索出来的,哪些是模型“现编”的。



表 2 思考过程行为分析结果显示,模型有时会在思考过程中假装进行搜索(hallucinated search),这个现象在一些文本问题和视觉问题上都有出现,而 Gemini 系列尤其普遍(上:长尾事实性问题;下:根据图片推理地理位置的问题) 


图 3 Gemini 2.5 Pro 一例(网上能反查到原图、可直接获知摄于比利时而非模型坚称的法国)


除了搜索工具的调用可能存在幻觉以外,“以图思考”(thinking with images)过程中较为常见的图像缩放工具调用有时也存在疑问。图 4 给出了一个根据照片推理地点的例子,四遍推理中思考过程均声称对地铁标志进行了“放大”,但每一遍对放大后读出的文字都不相同、且都不正确。


图 4 Gemini 2.5 Flash 一例(多遍推理结果在“放大”图片后读出了截然不同的文字)


3. 视觉瓶颈:“多想”未必“看得更准”


当 AI 面对一张复杂的图表或图像时,更长的思考时间是否能帮助它更好地理解?


我们的答案是:效果有限。


评测发现,当前基于文本的推理并没有给模型的视觉推理能力带来显著的提升。模型在处理需要精细空间理解、逻辑推理的视觉问题时,依然困难重重。以图 5 中呈现的空间推理类问题评测结果为例,Claude Sonnet 4 和 Gemini 2.5 Flash 在打开思考模式后明显多花费了很多词(tokens)展开思考,但并没能带来准确度上的提升,有时甚至不如不打开。GPT-5 或者早前的 o3 在开启最大程度思考("high")后也并没有给中等思考模式("medium")带来增益。


图 5 视觉语言模型在空间推理类问题上的表现


为了更准确地评估模型的视觉推理能力,我们团队构建并发布了一个全新的、更考验视觉推理的视觉评测基准——ROME (Reasoning-Oriented Multimodal Evaluation) 。


  图 6 ROME 视觉评测基准问题示例


ROME 包含了 8 大类、共 281 个全新的视觉问题 ,涵盖学术图表、图形解谜与游戏状态理解、空间关系、地理位置推断等多个维度,旨在更全面地评测当前及未来模型的视觉推理范畴。


表 3 ROME 视觉评测基准样本分布与评测方法


其他关键发现速览


  • 模型性能差异:在文本问题上,GPT-5 系列全面展现出优势 ;而在视觉问题上,Gemini 2.5 Pro 的综合准确率略胜一筹,但 GPT-5 和 o4-mini 在 token 花费数量方面看起来稍稍更为高效。

  • 部分关于思考模型先前发现的普适性:我们发现有一些先前工作指出的思考模型局限(如指令跟随能力退化)仅对部分模型族适用,并非普遍现象。但有些现象(如多轮指令召回度退化)则相对更普遍。

  • 部分评测维度波动巨大:推理模型在部分挑战较高的视觉评测维度(如空间推理)上多遍评测结果存在巨大波动,因此相关方向后续研究需要推理多次、关注评测结果的数据统计性质。

  • 开源模型潜在的安全性隐患:评测显示,当前的开源推理模型可能更容易受到有害内容或“越狱”提示词的影响,尤其是在推理过程中泄露不当行为的详细操作,这意味着在部署时需要格外谨慎。


4 结语


当下,推理模型正在将现代大模型的能力推向新的高度。但我们的评测也清晰地揭示了另一面:模型在变得更强的同时,也变得更难被理解、被监测。


在追求更高性能的道路上,模型的透明度、可靠性和诚实度同样至关重要。


未来,我们需要更创新的评测方法和技术,来更好地校准 AI 的发展方向,确保这个强大的工具能真正为我们所用,而不是将使用者带入一个难以分辨真假的黑箱之中产生误导。


获取完整版高清 PDF 报告及评测数据:https://flageval-baai.github.io/LRM-Eval/


用户头像

还未添加个人签名 2024-05-11 加入

北京智源人工智能研究院聚焦人工智能原始创新和核心技术,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破,支撑北京建设成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头

评论

发布
暂无评论
思维链的陷阱:智源FlagEval评测揭示推理模型真实能力与安全隐患_人工智能_智源研究院_InfoQ写作社区