“考公图都不会?”大模型真正的难题是:看图太难!
——VisuRiddles 揭示多模态大模型在“看图推理”中的核心瓶颈
考公图都不会?现在火遍全网的多模态大模型(MLLMs),面对一张公务员考试里的图形推理题,居然频频“翻车”?真相可能出乎意料:模型不是“不会推理”,而是“没看懂图”。
2025 年 6 月,华中科技大学白翔团队联合华为发布全新研究成果 —— VisuRiddles,一个专为抽象视觉推理设计的评测与数据体系,首次系统性揭示了当前大模型在“看图推理”中的核心瓶颈:感知能力严重不足。
本项目不仅发布了覆盖五大感知维度+两类高阶任务的基准数据集,还创新设计了自动化数据合成工具 PRS(感知谜题合成器),能够生成带有结构化感知描述的任务样本,让模型“看得懂、推得出”。
实验显示:在不改变模型结构的前提下,仅使用 PRS 生成的数据进行训练,模型在公务员图形题上的表现大幅跃升。
推理不难,看懂才难!
VisuRiddles 发现关键问题:大模型看不懂图 更提供了解决方案:PRS,让模型学会“看清楚”!

论文链接:https://arxiv.org/abs/2506.02537
代码地址:https://github.com/yh-hust/VisuRiddles
🔍 研究动机:真正的难点不在“推理”,而在“看懂”
随着大模型(LLMs, MLLMs)在视觉-语言领域的快速进步,当前主流模型在日常图片理解、图文生成等任务上已取得显著突破。然而,抽象视觉推理任务——如国家公务员考试中的图形推理、智力测验中的抽象逻辑题——依然被视为“业界最难啃的骨头”。相关实验证明,即便是最强的 GPT-4o、Gemini-2.5 Pro 等多模态大模型,在这些任务上的表现也大多接近随机蒙题,远低于人类平均水平。

过去传统观点普遍认为,多模态大模型在抽象推理场景中的错误主要源于推理链条不完整或逻辑建构能力不足。但事实可能更出人意料——它们连图都没看清楚!
以下图为例,模型在面对原始图像输入时,常常难以准确提取图形中的关键结构与微小变化,例如元素数量、属性差异、空间布局等,从而导致推理尚未开始便已走向错误路径。如图左所示,在感知缺失的情况下,模型虽然尝试推理,但过程缺乏依据,最终结果错误。相比之下,若将输入替换为细粒度感知描述(图右),模型能够依照更明确的视觉信息完成逐步分析,最终作出正确判断,表现出更稳定的推理能力和更具解释性的推理路径。

这种差异表明,抽象视觉推理中的关键瓶颈并非完全位于逻辑推理阶段,而在于推理所依赖的感知阶段输入质量。模型的推理失败往往源于“未能看清”,而非“看清后推错”,这一点与人类直觉判断形成显著反差。
基于上述观察,文章提出了两项核心研究贡献: 一是提出 VisuRiddles 基准,从多个基础感知和高阶推理维度系统评估并量化多模态大模型在抽象视觉推理中的实际能力; 二是设计了 PRS(感知谜题合成器)框架,通过自动化生成具备细粒度感知描述的任务数据,为模型提供结构化的感知过程监督,有效打通“看清楚—能归纳—会推理”的全链路。
🧪 研究贡献一:VisuRiddles——专为“抽象推理”打造的评测基准
为了更好评估大模型在抽象图形任务中的表现,VisuRiddles 提出了一套覆盖广泛的视觉推理测试体系。不同于以往只关注最终答案,VisuRiddles 从感知到推理全链路设计,全面考察模型“看懂”和“想明白”的能力。
这个基准融合了真实的公务员图形题和经典智力测试,任务类型丰富,涵盖:
🔢 数量感知:能否看出图形数量的变化?
🎨 属性感知:颜色、形状这些细节,模型察觉了吗?
🔁 样式变换:图形是怎么变的?能总结出规律吗?
📍 位置关系:图形摆放有什么逻辑?
🧩 空间结构:面对复杂的空间排列,能否正确理解?
🧠 高阶推理:包括 RAVEN 和数独等任务,考察模型的综合推理和多步决策能力。
所有题目来自真实题库,经过严格筛选和人工审核,保证高质量、无歧义、题意明确。不仅适合当前模型的全方位测评,也便于未来任务拓展。
📂 数据与评测工具已全面开源,
目前,VisuRiddles 数据集与评测代码已全面开源,为学术界和产业界提供权威、标准化的模型测评基准。

👁️ 研究贡献二:PRS —— 让模型真正“看懂图”的数据生成工具
抽象视觉任务难就难在图看不清、关系找不到。PRS(Perceptual Riddle Synthesizer)就是为了解决这个问题而设计的:它是一个专注于“感知过程”的自动化任务合成工具,能够大规模生成结构清晰、描述完整的图形推理题,帮助模型更好地理解图形细节。
相比传统只给“图+选项”的方式,PRS 提供的题目更有“教学感”:
规则自动生成:通过建模真实题库中的常见图形变化(如旋转、对称、数量变化等),生成具备代表性的任务。
智能干扰设计:每道题都带有逻辑清晰的干扰选项,保证题目合理、有挑战,但始终只有一个标准答案。
感知信息同步标注:题目不仅有图,还有每个元素的结构描述,比如颜色、形状、位置、变化方式等,方便模型学会“看清楚”。
支持感知–推理闭环训练:这些数据让模型能够从“看清图”开始一步步建立逻辑链,而不是直接跳到结论。
值得说明的是,PRS 合成的题目重点在于锻炼模型的感知能力,因此题目整体难度会低于真实图形推理题,目标是帮助模型“打好基础”,把图先看明白。这样的训练方式,能有效提升模型在真实任务中面对细节复杂图形时的理解力和稳定性。

📈 研究发现:精细感知监督 > 推理技巧
❶ 模型越大,思维链路越长, 并不代表模型推理能力越强
即便是参数规模达到几十亿的主流多模态大模型,在公务员图形题、RAVEN、数独等任务中的表现,依旧与人类差距明显。比如 GPT-4o、Gemini2.5-pro 等顶尖模型,在抽象图形推理中的准确率接近随机猜测,甚至在结构推理类任务中接近 0。一些模型尝试通过增加参数量或引入推理技巧(如 CoT、Think 模式)来“强行提升”能力,但从整体来看,这些方法并不能真正补上感知能力的短板。换句话说,模型规模和推理模板不是万能的,感知能力才是前提条件。

❷ 模型不是“不会想”,而是“看错了再想”
进一步对比推理过程发现,即便是具备“思维链提示”或“thinking 模式”的模型,也常常因看错图形、判断出错,从而陷入逻辑闭环。例如有模型一开始就误判图形数量,导致后续推理再完整也只能得出错误结论。
反观引入感知描述的模型,能基于结构清晰的输入,从“看懂”开始,逐步构建出正确的推理链条,不但答对了题,还能讲清楚理由。

❸ 感知增强带来的,是从“乱猜”到“稳答”的飞跃
当输入从原始图形切换为 PRS 提供的结构化感知描述后,模型表现出现质的提升。Qwen2.5VL 的平均准确率直接从 30.9% 飙升至 73.6%,在空间理解、图形补全、数独推理等任务中,单项提升最高达 60+ 分。
这种结果清晰地说明:只靠思维模式和 CoT 无法弥补“看不清楚”的缺陷,感知能力是大模型做好图形推理的关键变量。

总而言之,文章的实验带来了以下结论:
模型大 ≠ 模型准,推理强 ≠ 理解对;
看错图,怎么“想”都不对;
感知能力是大模型通向抽象智能的第一道门槛。
🔚 总结
在面对抽象图形任务时,大模型“看错图”远比“想错逻辑”更致命。VisuRiddles 的研究发现指出:当前多模态模型真正的短板不在推理力,而在感知力。
通过构建覆盖感知与推理全链条的评测基准 VisuRiddles,以及自动生成结构化感知数据的 PRS 工具,这项工作不仅定位了模型的核心瓶颈,还提供了切实可行的解决方案。实验也证明:提升模型的感知能力,比盲目扩参或堆叠推理技巧更有效。
这为多模态智能的发展指明了一个重要的方向——让模型先学会“看清楚”,再去“想明白”。
VisuRiddles 数据集与评估已全面开源,PRS 合成代码后续将会逐步开放,欢迎学术界与产业界共同探索,让大模型离“真正理解图形”更进一步。
🔗 项目地址:https://github.com/yh-hust/VisuRiddles
📢 抽象图形推理,先看懂再说话。VisuRiddles,让大模型从看图小白走向抽象高手。
评论