Anthropic 深夜推出王炸,全球首个混合推理模型诞生,编程能力吊打一切对手

今天 Anthropic 公司正式发布 Claude 3.7 Sonnet1,根据官方介绍,这是迄今为止最智能的模型,也是市场上首款混合推理模型。Claude 3.7 Sonnet 能够生成近乎即时的响应,或者展示出逐步深入的思考过程,并将其直观地呈现给用户。API 用户还可以对模型的思考时长进行精细控制。
可能很多人对 Anthropic 还不是很熟悉,实际上,他们是一家专注于人工智能安全和负责任开发的初创公司,其创始团队都是 GPT 系列产品的早期开发者。在 2020 年 6 月,OpenAI 推出了第三代大型语言模型 GPT-3。然而,由于对 OpenAI 未来发展方向的担忧,特别是对微软投资可能导致的商业化倾向和对 AI 安全性研究的忽视,OpenAI 的研究副总裁 Dario Amodei 和安全政策副总裁 Daniela Amodei 决定离开。
2021 年,他们与另外 5 名 OpenAI 成员,包括 GPT-3 模型的主要开发者 Tom Brown,一同创立了 Anthropic,旨在构建可靠的(Reliable)、可解释的(Interpretable)和可操控的(Steerable)AI 系统。Anthropic 的目标本质上是开发使 AI 系统更安全的技术和识别 AI 系统安全或危险程度的方法。公司名 Anthropic 意为”与人类有关的”。
和 OpenAI 不同,但 Anthropic 也堪称融资狂魔,其背后站的是亚马逊和谷歌,2023 年 9 月,亚马逊宣布将对 Anthropic 投资最多 40 亿美元,并分批完成了投资。2023 年 10 月,谷歌宣布向公司投资至多 20 亿美元,其中包括 5 亿美元的前期现金注入,以及 15 亿美元的后续投资。
好了,再来看今天发布的最新模型:
据介绍,Claude 3.7 Sonnet 在编程和前端网页开发方面表现出显著的提升。与此同时,Anthropic 还推出了一款用于智能编码的命令行工具——Claude Code。Claude Code 目前以限量的研究预览版形式发布,开发者可以直接通过终端将大量工程任务委托给 Claude 来完成。

Claude 3.7 Sonnet 现已登陆所有 Claude 订阅计划——包括免费版、专业版、团队版和企业版——以及 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台。扩展思考模式在所有层级中均可使用,但免费版 Claude 用户除外。
无论是标准模式还是扩展思考模式,Claude 3.7 Sonnet 的定价均与其前代产品保持一致:每百万输入 token 收费 3 美元,每百万输出 token 收费 15 美元——其中已包含思考 token 的费用。
Claude 3.7 Sonnet:将前沿推理变为现实
Anthropic 开发 Claude 3.7 Sonnet 的理念与市场上其他推理模型截然不同。正如人类使用同一个大脑进行快速反应和深度思考一样,Anthropic 相信推理应该是前沿模型的综合能力,而非完全独立的模型。这种统一的方法也为用户创造了更加无缝的体验。
Claude 3.7 Sonnet 通过多种方式体现了这一理念。首先,Claude 3.7 Sonnet 既是普通的 LLM(大语言模型),也是推理模型的结合体:用户可以选择让模型正常回答,或者让它进行更长时间的思考后再给出答案。在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版;而在扩展思考模式下,它会在回答前进行自我反思,从而在数学、物理、指令执行、编程等多项任务中表现更佳。我们发现,在这两种模式下,模型的提示词使用方式基本一致。
其次,通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考的预算:您可以指定 Claude 的思考 token 数不超过 N,N 的值最高可达其输出上限 128K token。这使您能够在速度(和成本)与答案质量之间进行权衡。
第三,在开发推理模型时,该模型减少了对数学和计算机科学竞赛问题的优化,转而将重点放在更能反映企业实际使用 LLM 的现实任务上。
早期测试表明,Claude 在编程能力方面全面领先:Cursor 表明 Claude 再次成为现实世界编程任务中的佼佼者,在处理复杂代码库和高级工具使用等方面均有显著提升。Cognition 发现在规划代码变更和处理全栈更新方面,Claude 远超其他模型。Vercel 强调了 Claude 在复杂代理工作流程中的卓越精准度,而 Replit 已成功部署 Claude,从零开始构建复杂的 Web 应用和仪表盘,而其他模型则难以胜任。在 Canva 的评估中,Claude 始终能生成可直接投入生产的代码,设计品味出众,且错误率大幅降低。

Claude 3.7 Sonnet 在 SWE-bench Verified 上实现了最先进的性能表现。SWE-bench Verified 用于评估 AI 模型解决现实世界软件问题的能力。

Claude 3.7 Sonnet 在 TAU-bench 上实现了最先进的性能表现。TAU-bench 是一个测试 AI 代理在复杂现实任务中与用户和工具交互能力的框架。

Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力以及智能编码方面表现出色,扩展思考模式显著提升了其在数学和科学领域的表现。除了传统基准测试外,它甚至在进行的宝可梦游戏测试中超越了所有之前的模型。
Claude Code
自 2024 年 6 月以来,Sonnet 已成为全球开发者的首选模型。今天,Anthropic 通过推出 Claude Code——我们的首款智能编码工具——进一步赋能开发者,目前以限量研究预览版的形式发布。
Claude Code 是一位积极的协作者,能够搜索和阅读代码、编辑文件、编写和运行测试、将代码提交并推送到 GitHub,以及使用命令行工具——同时确保您在每一步都参与其中。
以上,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐,感谢你看我的文章。 投稿或爆料,请联系微信:karamos1018
版权声明: 本文为 InfoQ 作者【Geek_99b519】的原创文章。
原文链接:【http://xie.infoq.cn/article/e8000022574d40dee4976646e】。文章转载请联系作者。
评论