美国数学奥赛题,六套 AI 模型得分不足 5%!

https://arxiv.org/abs/2503.21934
下载原文 PDF,详细说一下。
论文主要研究大语言模型(LLMs)在数学推理方面的能力,找了六套模型解答 2025 年美国数学奥林匹克竞赛(USAMO)的题目,发现这些模型表现不佳,在严格的数学推理任务上存在很大局限。
研究背景:
之前的数学基准测试显示,像 O3-MINI 在 AIME 等数学竞赛中成绩不错,但这些测试只看最终数字答案,忽略了严格推理和证明过程,而这对实际数学任务很重要。当前一些改进的基准测试方法也存在不足,所以不确定 LLMs 能否处理复杂数学问题。
研究方法:
论文选择 2025 年 USAMO 的 6 道证明题作为测试,让模型用 LaTeX 格式给出详细证明,每个模型对每道题解答 4 次。由 4 位有数学竞赛经验的专家组成评分团队,参考可靠数学资源制定标准化评分方案,对模型解答进行双评,并记录错误类型。
研究结果:
评估了 6 个模型,结果显示它们在 USAMO 问题上表现都很差,最高分不到 5%,没有一个解答获得满分。常见错误类型包括逻辑错误、不合理假设、缺乏推理创造性以及代数与算术上的错误。尝试用 LLM(O3 - MINI 和 CLAUDE 3.7)进行自动评分,但模型无法准确评分,存在高估情况。
定性讨论:
发现模型存在一些问题,比如受强化学习优化技术影响,很多模型不管题目是否要求,都习惯把答案框起来,甚至因此得出错误结论;模型还经常过度推广小数值案例中的模式,在需要严格证明的题目上站不住脚;不同模型给出的解答在结构和清晰度上差异很大,部分模型解答混乱难以理解。
结论:
当前先进的 LLMs 在严格数学推理任务上表现不佳,需要大幅提升推理和证明生成能力。
仔细思考一下,所谓的深度学习,无论是监督学习,半监督学习又或者是进展到无监督学习,学习的来源是已知数据。那各家 LLM 还都只是「语言」模型,并非真正意义上的知道推理 Reasoning 或所谓的 Inferencing。所以,过去仅针对 AIME 或 HMMT,直接「推理」出答案,其实是在学习的题目里,已有的答案上下文里去直接找到答案,又或者上下文里去找出「推理过程」,并不代表模型在真正意义上知道解提的方式或方法。这报告得出这样的结果,一点也不令我感到震惊或者奇怪。
因为当模型回答 AIME 或 HMMT 竞赛题时,输出是基于训练数据中相似题目的解题模板或答案分布,而不是通过数学公理逐步推导得出,那这就跟练题,背题,甚至理解为刷题作弊且不是不求甚解,而是根本无所了解,那 LLMs 在面对须要抽象符号操作,例如代数变形与几何证明,那错误率就高的离谱。换句话说,各家模型目前所谓的数学能力,是依赖于训练数据中的解题样例,如果题目超出已有答案的覆盖范围,一有新颖题型或者更高复杂度的题目,模型表现肯定多半是零分。这就像是让语言专家与记忆力专家去强记,而不是在真正意义上的数学与物理大师,语言模型因缺乏底层逻辑理解而只是生成看似合理但错误的推导。当前 LLMs 的数学推理能力仍处于“表面模仿”阶段,其局限性根植于模型架构与训练目标的错配(语言建模 vs 符号推理)。突破这一瓶颈可能需要跨学科方法的深度融合,而非单纯依赖更大规模的数据或参数。
评论