写点什么

Qwen3-Coder-480B-A35B-Instruct 发布,可能是目前最好的编程模型

作者:qife122
  • 2025-08-13
    福建
  • 本文字数:669 字

    阅读完需:约 2 分钟

某机构 Qwen 团队发布了开源编程大模型 Qwen3-Coder-480B-A35B-Instruct。这款专注于软件开发辅助的大型语言模型采用 Apache 2.0 开源许可,能够处理复杂的多步骤编程工作流,在数秒至数分钟内生成完整可运行的应用程序。

模型架构与能力

Qwen3-Coder 采用混合专家(MoE)架构,包含 4800 亿总参数,每查询激活 350 亿参数,从 160 个专家中选择 8 个激活。模型原生支持 256K 令牌上下文长度,通过 YaRN 技术可扩展至 100 万令牌。作为因果语言模型,它具有 62 层网络结构,查询使用 96 个注意力头,键值对使用 8 个注意力头。

卓越性能

在多项代理评估套件中表现领先:


  • SWE-bench Verified: 67.0%(标准)/69.6%(500 轮)

  • 对比 GPT-4.1: 54.6%

  • 对比 Claude Sonnet-4: 70.4%

工具与集成

随模型开源了 Qwen Code CLI 工具,支持函数调用和结构化提示。集成选项包括:


  • 通过 DashScope 代理或路由定制连接 Claude Code

  • 作为 OpenAI 兼容后端接入 Cline

  • 支持 Ollama、LMStudio 等本地运行方案

训练技术

除在 7.5 万亿令牌(70%代码)上预训练外,还采用:


  • 代码强化学习(Code RL):针对可验证代码任务

  • 长程代理 RL:训练多轮交互中的规划能力

企业应用

特别适用于:


  • 代码库级理解

  • 自动化 PR 工作流

  • 工具集成与编排

  • 数据驻留与成本控制

开发者建议

最佳使用参数:


  • temperature=0.7, top_p=0.8

  • 最大输出长度 65,536 令牌

  • 需 Transformers 4.51.0+版本


模型已在 Hugging Face、GitHub 等平台发布,技术社区反馈积极,被认为在专业编程任务中超越了通用模型的表现。团队表示未来将推出更多尺寸版本以降低部署成本。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)或者 我的个人博客 https://blog.qife122.com/公众号二维码


办公AI智能小助手


用户头像

qife122

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
Qwen3-Coder-480B-A35B-Instruct发布,可能是目前最好的编程模型_人工智能_qife122_InfoQ写作社区