写点什么

通义灵码上新推理模型,快来体验数学和编程双冠王 Qwen2.5-Max

作者:阿里云云效
  • 2025-03-05
    浙江
  • 本文字数:736 字

    阅读完需:约 2 分钟

近期,通义灵码上新了模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外, Qwen2.5-Max 也正式上线,它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。


使用方式: 在通义灵码智能问答、AI 程序员窗口的输入框中,单击模型选择的下拉菜单即可选择所需模型。



通义千问将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行了对比。



在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。


在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。


对比结果如下图所示,通义千问的基座模型在大多数基准测试中都展现出了显著的优势。



此外,三方基准测试平台 Chatbot Arena 公布了最新的大模型盲测榜单,通义千问 Qwen2.5-Max 超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七名,也是非推理类的中国大模型冠军。同时,Qwen2.5-Max 在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。



Chatbot Arena 官方配图:阿里 Qwen2.5-Max 在多领域表现强劲,数学及编程能力斩获第一


“ ChatBot Arena 官方评价称:阿里巴巴的 Qwen2.5-Max 在多个领域表现强劲,特别是专业技术向的(编程、数学、硬提示等)。



目前,通义灵码已经内置 Qwen2.5-Max,欢迎大家下载通义灵码插件,体验 Qwen2.5-Max 强大的编程能力!


  • 点击下方链接体验:https://lingma.aliyun.com/lingma/download

用户头像

云效,产研数字化同行者。 2021-11-05 加入

云效,云原生时代一站式BizDevOps平台。支持公共云、专有云和混合云多种部署形态,支持敏捷研发、DevOps、BizDevOps模式,助力创新创业和数字化转型企业快速实现研发敏捷和组织敏捷,实现多倍效能提升。

评论

发布
暂无评论
通义灵码上新推理模型,快来体验数学和编程双冠王 Qwen2.5-Max_阿里云_阿里云云效_InfoQ写作社区