超越 Devin!姚班带队,他们创大模型编程新世界纪录
允中 发自 凹非寺
量子位 | 公众号 QbitAI
超越 Devin!SWEBench 排行榜上迎来了新玩家——
StarShip CodeGen Agent,姚班带队初创公司 OpenCSG 出品,以 23.67%的成绩获得全球第二名的成绩。
同时创造了非 GPT-4o 基模的最高纪录(SOTA)。
我们都知道,SWEBench 评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。
在这种高难度的真实测试中,行业中最先进的 GPT4 和 Devin,也仅能解决 1.74%和 13.86%的问题。
OpenCSG 的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。
大模型编程,到底有多难?
2024 年 3 月,首个 AI 软件工程师 Devin 的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但 Devin 本身强大的创新能力和巨大的潜力,带给众多 AI 爱好者和从业者新的期待。
Devin 不仅能够轻松解决编码任务,更可以自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调 AI 模型等等。
为什么 Devin 敢于挑战 GPT4 等基础模型的编程能力呢?
核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。
针对于这类真实场景,普林斯顿大学提出了 SWEBench,这是一种量化评估端到端代码生成能力的工具。
GPT-4 在 SWEBench 上的评分仅有 1.74%,即使加上 RAG 技术,评分也不到 3%,这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。
而 Devin 的技术创新是基于 Agent 构建工作流程,将 SWEBench 的解决率提升到了一个新高度。
3 月份,Devin 以独立解决 13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入 LLM for SE 这个领域,这项记录被连续改写。
截止 2024 年 4 月底,最好的记录由 Amazon AI 团队推出的 Amazon Q Developer Agent 创造的 20.33%。
较为遗憾的是,相比于基础模型榜单上中国公司的“百花齐放”,这项高难度的挑战中国公司鲜少参与,直到这一次 OpenCSG 改写了这一纪录。
来自中国创业公司
SWEBench 最新评测结果更新,OpenCSG 跃居榜单第二名,该公司推出的 OpenCSG StarShip CodeGen Agent 在 Lite 评测中取得了 23.67%的通过率,这一成绩不仅超过了 Devin 和 Amazon 的成绩。
OpenCSG(开放传神)成立仅一年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
团队在开源及大模型复合经验十分深厚——
CEO 陈冉是开源软件领域的知名企业家,曾成功打造过多家开源领域的商业公司。
CTO 王伟来自清华 05 级姚班,在人工智能领域有多年研发经验。
公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。
那么这样一支团队是如何打造出新的记录的呢?
当前许多企业正在积极探索和实践基础模型、垂直领域模型及 RAG 等技术,而 OpenCSG 则选择了专注的方向:致力于编程 Agent 的创新开发和大型模型算法的深度优化。
Agent 层面:不同于 LLM+RAG 或者通用 Agent 框架,OpenCSG StarShip CodeGen Agent 针对软件研发领域高度定制优化 Agent 而设计:将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过 LLM Agent 实现,并结合软件工程方法,例如 AST 语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。
算法层面:针对代码版本变更引起的 API 冲突等典型问题,OpenCSG 提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的 RAG 模式,尤其是在 API 结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。
正是这种算法+工程双管齐下、精益求精的模式,让 OpenCSG CodeGen Agent 能在一众模型中脱颖而出。
“StarShip 就是各种家电电器”
如果说 CodeGen Agent 的真实评测是牛刀小试,那么 StarShip 则是承载着 OpenCSG 的宏伟蓝图。
对于 StarShip 的产品定位,OpenCSG CEO 陈冉表示:
StarShip 承担着我们对于大模型重塑软件开发的愿景。用户通过 StarShip 内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent 是平台内置的数字程序员,目前已经发布的还有 CodeReview Agent 代码评审员和 CodeSearch 代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。
CTO 王伟则表示这条路径充满挑战但非常有趣,“从第一性原理来看,大模型对于生产力的提升已经不是’是’或者’否’的问题,而是何时、何地、何种形态的问题,StarShip 正是我们尝试给出的一个回答。”
除 StarShip 之外,OpenCSG 团队还相当高产:CSGHub 开源模型平台、wukong 预训练模型、CSGCoder 微调代码模型等,这些产品定位精准,在业内颇受好评。
这些产品的快速推出与迭代,既满足了市场需求,同时也为了一个共同的目标:让大模型赋能每一个企业每一个人。
让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么 CSGHub 是电力网络,StarShip 则是各种各样的家电电器,最终赋能到千家万户。
OpenCSG 的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至将平台开源。
CTO 王伟这样总结,我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同 Sam Altman 的说法,开源只是一种模式,比模式更重要的是产品价值。
“Benchmark 本身只是一个数字,随着 GPT4-o 的推出,SWEBench 的测试成绩预计将会很快超过 30%,乐观估计明年可以突破 50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。”
卡奥斯智能交互引擎是卡奥斯基于海尔近 40 年工业生产经验积累和卡奥斯 7 年工业互联网平台建设的最佳实践,基于大语言模型和 RAG 技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。
评论