DeepSeek 和 OpenAI、xAI、Anthropic 哪家强?FlagEval 智源评测
2025 年伊始,多家顶尖大模型企业如 DeepSeek、xAI、OpenAI 和 Anthropic 相继推出了革新性产品。其中,DeepSeek-R1、Grok3、OpenAI 的 o1、o3 和 GPT-4.5-preview、Claude-3.7-sonnet 等模型引发了业界的广泛关注和热烈讨论。
智源研究院 FlagEval 大模型评测平台基于长期进行大模型评估的专业视角和严谨的评估标准,对上述前沿模型开展了全面而深入的对比评测。
本次评测聚焦大模型的两大核心能力:语言处理能力和图文理解能力。经过精心设计的测试用例和严格的评估流程,深度剖析了模型在实际应用场景中的性能表现,揭示其优势、局限性以及潜在的应用前景。本次评测的主要目的是剖析模型之间的性能差异,不涉及其他方面。为保证评测结果的准确性,本次评测均采用人工评价。智源希望此次及时、专业的评估能为研究人员、开发者以及大模型用户提供宝贵的依据和参考。
值得说明的是,xAI 的 Grok3 系列、OpenAI 的 GPT-4o 和 GPT-4.5 系列、Anthropic 的 Claude3.5 & 3.7 系列以及 Google 的 Gemini 2.0 系列模型是多模态模型,不仅精通语言对话,还同时能够处理多模态理解任务。它们通过同一个模型,出色地展现语言能力和多模态理解能力,其技术难度比纯语言模型更上一个台阶。
GPT-4.5 在评估中,以非长推理(非深度思考模式)的一般模型,在语言模型的性能中,达到了长推理(深度思考模式)的模型性能,也是十分难得。
另外,本次评测采用的是开源的 DeepSeek-R1 和 DeepSeek-V3 的满血版。
一、语言模态的能力评估
本次进行大模型语言模态能力评估的大模型一共 13 个,其中包括
5 个深度思考模式(长推理)的大模型:
Grok3-beta+Think、o1、o3-mini-high、Claude-3.7-sonnet+thinking、DeepSeek-R1,
8 个非深度思考模式(非长推理)的大模型:
GPT4.5-preview、Grok3-beta、Gemini-2.0-flash-exp、Qwen2.5-max、DeepSeek-V3、Claude-3.7-sonnet、Claude-3.5-sonnet、Chatgpt-4o-latest
由于这两类模型的侧重点不同,用户的使用成本也存在差异,许多厂商将它们分别提供给用户。因此,本次评测对这两类模型进行了区分比较。
(1)语言模态的评测数据说明
A. 评测任务的选择为了避免公开评测集的数据污染和任务过于简单,本次评测选取了几项具有挑战性且用户使用频率较高的任务类别进行评测。这些任务不仅能够有效区分模型的性能,还能反映用户在实际使用中的需求。
B. 评测方式与数据量由于评测题目的复杂性较高,为了保证评测质量,本次语言模态评测全部采用人工评测,其中中英文测试样例的比例分别为 80%和 20%。为充分反映各模型的表现,本次评测任务选取相对具有挑战性和用户使用频率较高的类别,具体如下:

(2) 评测结果
从本次评测观察来看,深度思考模式下的模型整体表现优于一般模式的模型,特别是在数学和数据处理方面优势明显,具体表现如下:
数学与数据处理:xAI 的 Grok3-beta+Think、OpenAI 的 o1 和 o3-mini-high 表现尤为突出。
o3-mini-high 和 Grok3-beta+Think 在数学、代码和数据处理等需要较强推理能力的任务上表现强势,令人印象深刻
DeepSeek-R1 在数据处理方面表现优异,超越了其他所有模型。
文案处理:在文案生成和处理任务上,o3-mini-high、Claude-3.7-sonnet 和 Gemini-2.0-flash-exp 表现更为出色。相比之下,Grok3-beta+Think 和 DeepSeek-R1 由于回复较为冗长,在文案处理类任务上的得分相对较低。
详细维度评分
注:本次评测分数计算以得分率作为分数指标

注:如未特殊说明则表示是通过调用官方 API 的方式获取的推理结果。
(3) 分析洞察
在本次评测中,智源还发现深度推理模型的工作方式会影响模型在特定任务中的表现。因为推理模型往往会采用详细的回复带给用户更多的帮助,所以其回复往往比较长,Grok3-beta+thinking 表现尤为突出。这使得推理模型难以满足有字数约束的生成任务、总结概括等文字任务要求,从而拖累其在文案处理任务上的表现。本次评测的推理模型,除 o3-mini-high 外,Deepseek-R1、o1、Claude-3.7-sonnet+thinking、Grok3-beta+thinking 在文案处理任务得分均不高。
二、多模态视觉理解能力
近期由 OpenAI 推出的 GPT4.5 以及由 xAI 推出的 Grok3 都是多模态模型,兼具了语言和视觉的跨模态能力。所以我们也对全球六个处于第一梯队的多模态大模型进行进一步评估比较。本次评测仅选取国外包括 OpenAI、Google、xAI 和 Anthropic 的大模型,因为国内现有模型与之仍有差距(可参考 2024 年 12 月 19 日的智源评测结果https://flageval.baai.ac.cn/#/leaderboard/multimodal?kind=vqa)
(1) 评测数据说明
A. 通用能力评测数据一中文数据为主,包含少量英文数据,整体评测类别如下:

B. 本次同时进行了中文 K12 学科评估,数据均匀覆盖语文、英语、数学、化学、物理、生物,选用的题目中均包含图表信息,要求模型能够结合图表和文本来解答问题。
(2) 评测结果及分析
从目前的评测结果来看,GPT-4.5-preview 和 Gemini-2.0-pro-exp 是当前多模态能力最强的模型,而 Grok3-beta 和 Claude-3.7-sonnet 在全球多模态模型比较中表现相对较弱。其中 GPT-4.5-preview 在基本分析和理解能力方面表现突出,但在推理、感知及其他能力维度上存在短板;而 Gemini-2.0-pro-exp 则在推理、感知及其他能力维度上表现优异,但在基本分析和理解能力方面存在一定缺陷。相比之下,Grok3-beta 在基本分析和理解能力上表现较差,尤其是对图片中的文字(特别是中文)识别错误率较高,且在处理物体间对应关系(如图表与坐标、人与环境中物体的对应)等复杂任务时错误频发;Claude-3.7-sonnet 则在颜色识别和数量判断方面问题较多,且与上一版本 Claude-3.5-Sonnet 相比,多模态能力略有下降。
在中文 K12 学科评测中,Gemini-2.0-pro-exp 和 GPT-4.5-preview 表现最佳,能够较好地结合图表和文本信息解答问题。
A. 通用视觉理解能力评测结果

注:本次评测分数计算以得分率作为分数指标
B. K12 学科评测结果

注:本次评测分数计算以得分率作为分数指标
局限性说明:
评测局限性:
本次评测仅为初步测试,仅针对语言能力和视觉理解能力的个别维度进行评估。
由于各模型的访问方式存在差异,评测结果可能存在一定偏差。
未测试模型:
由于时间和资源限制,尚未在 Grok3-beta+Think 和 OpenAI 的 o1 上测试视觉理解能力。

评论