写点什么

通义灵码软件工程大模型获顶会最高奖!

  • 2025-07-03
    浙江
  • 本文字数:990 字

    阅读完需:约 3 分钟

近日,软件领域国际顶会 ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——


「通义灵码软件工程大模型 SWE-GPT」


成为唯一获得该奖项的企业论文



此次获奖的论文 《SWE-GPT: A Process-Centric Language Model for AutomatedSoftware Improvement》 详细介绍了通义灵码 SWE-GPT 的训练框架与训练过程。


ISSTA 评审委员会专家点评称:“ SWE-GPT 是一种新颖的以「软件开发流程为中心」的大语言模型,它提出的数据合成方案真实模拟了实际软件开发过程,这是 AI 辅助软件开发领域前进的重要一步。”

论文详细解读

//数据合成

通义灵码 SWE-GPT 以通义千问 Qwen2.5 为基座模型,并在后训练阶段进一步模拟人类程序员的认知过程,学习软件工程领域复杂问题的端到端多步骤解决过程。


同时,团队创新性采用合成数据进行迭代模型训练,通过模拟真实软件开发中的动态交互与迭代问题解决过程,比如代码库理解、故障定位和补丁生成等,有效解决现有基础大模型的局限性。

// 模型训练

通义灵码 SWE-GPT 在模型训练阶段,为了增强训练过程的鲁棒性,通义灵码团队还采用了课程学习的方法,随着迭代的进行,逐步加入当前模型未能解决的问题,循序渐进提高训练样本的复杂度,确保模型巩固基础能力。


//实验测评

此前的实验结果显示,在权威基准 SWE-bench-Verified(500 项真实 GitHub 任务)测试中, SWE-GPT 72B 以 30.20%问题解决率刷新开源纪录,较 Llama 3.1 405B 提升 22.76%,接近同时期闭源模型 GPT-4o 的效果。



不仅如此,轻量级 SWE-GPT 7B 模型以 18.20%的解决率超越 Llama 3.1 70B(17.20%),展现了小尺寸模型在复杂软件维护任务中的实用价值。

//延伸应用

更重要的是,SWE-GPT 是一个通用框架,可以进行持续拓展,比如以其为基础引入思考能力和测试时扩展(test-time scaling),小尺寸(32B)模型在 SWE-bench-Verified 上可以达到 46%的问题解决率,接近业界领先的闭源模型 Claude 3.5 Sonnet v2 (46.20%) 和 OpenAI o1 (45.60%) 。


通义灵码算法负责人李永彬表示:“基于大模型的软件工程智能化领域的研究和应用正在快速发展,仅靠现有基础模型仍无法满足真实场景的需求,SWE-GPT 为 AI 辅助软件开发提出了新范式。”


ISSTA 是软件工程领域最具影响力的学术会议之一,该会议汇聚了学术界和工业界在软件测试、程序分析、代码质量保障等技术的前沿研究与应用。本届 ISSTA 共收到 550 篇投稿,最终录用 107 篇,其中仅有 9 篇被评为杰出论文。

用户头像

阿里云云原生 2019-05-21 加入

还未添加个人简介

评论

发布
暂无评论
通义灵码软件工程大模型获顶会最高奖!_阿里云_阿里巴巴云原生_InfoQ写作社区