写点什么

实测完主流大模型编程与 Agent 能力,我发现了。。。

作者:苍何
  • 2025-09-16
    湖北
  • 本文字数:3936 字

    阅读完需:约 13 分钟

实测完主流大模型编程与Agent能力,我发现了。。。

这是苍何的第 434 篇原创!

大家好,我是苍何。

不瞒你说,这是一篇拖了一个多月的文章。

那个时候,大模型纷纷狂发,GPT5、Claude4、Gemini2.5 Pro、Kimi K2,doubao 1.6 、Qwen 3、GLM 4.5 等陆续出来。

除此之外,vibe coding 工具也是一路狂飙,先不说 Cursor、Trae 吧,后来追上的 Claude Code 火了后,AI CLI 工具也疯狂连发。

腾讯、字节、阿里等大厂疯狂更新自家大模型和 AI  编程工具。

但对很多人来说,真的有点学不过来了,这其中就包括我。

特别是涉及 code 能力、 Agent 能力、多模态能力,到底哪个大模型好,目前我们的差距在哪儿?优势在哪儿?

于是大概一个多月前,我就整理测了主流模型的能力表现。(截图部分)

从这些测评 case,对大模型的拷打,多少能得到一些我们想要的答案。

但一直没有好好发出来,是因为这一个多月来,太多要详测的东西了。

今天终于有时间能发出来了,但由于文章篇幅限制问题,这一篇就先对比下 doubao 1.6、 Kimi K2、Claude Sonnet 4、Gemini 2.5 Pro、Qwen 3。

保命申明:部分 case 及灵感灵感来源网络,如有侵权,请联系作者。其中豆包大模型 1.6 是基于火山方舟测试。

可视化欧拉恒等式

首先,我给各模型出了个不算太难但很能体现功底的题目:可视化欧拉恒等式

创建一个交互式工具来可视化欧拉恒等式 
复制代码

这是 Kimi K2 效果:

这是豆包 APP 效果:

Gemini 2.5 Pro 效果如下:

Claude Sonnet 4 出来的效果:

试了 Qwen 3-Coder,是这个效果:


结论:整体效果大差不差,豆包大模型 1.6 等国内模型和 Claude 展现出的效果接近,但前端美观度上,Claude 在这个 case 里面保持了些许领先吧。

带有动画效果的天气卡片

再来看个不算太难但很能体现设计功底的题目:带有动画效果的天气卡片

你是 Apple Inc 的 UI 设计师,以 iOS 18 的设计风格做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,使用横板天气页面(拥有 4 个天气卡片 (晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果。
复制代码

先看下豆包大模型 1.6 的效果:

然后是 Kimi K2:

看下 Gemini 2.5 pro 的效果:

这是 Claude 4 效果:

最后看下 Qwen 3 出来的效果:


结论:这一轮中 Kimi K2 稍微有点不及预期,但 Qwen 3 和 doubao 1.6 表现不错,甚至比 Gemini 2.5 pro 稍微好些。

为了方便对比,我还特意做了豆包大模型 1.6 和 Gemini 2.5 pro 同框:

Gemini2.5 Pro 生成的结果功能上没问题,但整体设计偏保守,动画效果简单,交互反馈不够细腻。晴天卡片上的太阳就像个静止的 emoji,大风卡片的云朵动效卡顿得像 PPT 翻页。

豆包大模型 1.6 完美复刻了 iOS 18 的毛玻璃效果,连高斯模糊参数都调得和官网一致,看来豆包大模型 1.6 在 UI 设计细节处理上确实下了一番功夫!

设计 breakout 游戏

再来看个经典的游戏场景:设计 breakout 游戏

创建一个简单的breakout游戏作为单个html页面。
复制代码

先看下豆包大模型 1.6 效果:

接下来是 Kimi K2 效果:

Gemini2.5 Pro 效果如下:

Claude 效果如下:

Qwen3 出来的效果:

结论:这一轮国产模型胜过 Claude 和 Gemini 2.5 Pro,无论是效果还是真实可玩性上,相对来说,豆包大模型 1.6 和 Qwen 3 效果最好。

《木兰辞》的动态页面

接下来是一个有意思的 case:《木兰辞》的动态页面

帮我创建一个竖排展示《木兰辞》的动态页面,页面整体采用深色背景,文字为白色或浅色,字体简洁,适合长时间阅读。具体要求如下:1、清除掉原诗文的格式,只保留标点。所有文字竖向排列,也即使垂直方向从上到下排列。2、整体为白色文字,背景色为纯黑色,字体为宋体。页面的 Padding 为10px。根据展示效果自动调整好大小。3、风格简约高级。4、屏幕最右侧第一列垂直展示诗文标题,标题字号比正文大 5 px。5、从右侧第二列开始,依次继续垂直自上而下逐字展示诗词内容。每一竖列排满后,朝该列左侧方向换下一列就像展示。以此类推。6、每一列文字只有当距离底部 Padding 为 20px 时,才需要起新的一列。但注意,不要让标点打头。7、每列文字左侧都有竖向的细白色分割线。
复制代码

豆包 APP 效果如下:

Kimi K2 效果如下:

Gemini2.5 Pro 效果:

Claude 4 效果:

Qwen 3 效果:

结论:这个 case,表现最好的当属豆包 APP,无论是文字效果还是底部 Padding 都不错,Kimi K2 和 Claude 4 勉强也过得去,但 Qwen 3 和 Gemini 2.5 Pro 就有点抽象了,Gemini 2.5 Pro 直接出不来效果,Qwen 3 没遵循我的要求。

六边形弹力小球测试

六边形弹力小球测试属于测试模型能力的经典 Case,我们看看各家模型能力如何。提示词:

编写一个 Python 程序,使用 Pymunk 和 Pygame 模拟以下场景:一个正六边形围绕其中心点以恒定角速度缓慢旋转,六边形的六条边作为刚体墙壁,内部有一个小球。小球受重力、摩擦力和弹力的影响,在六边形内部弹跳。中心点位置保持不变,模拟小球的弹跳运动轨迹,并显示动画效果。确保物理模拟真实,包含碰撞检测和适当的物理参数(如摩擦系数、弹性系数)。代码需包含详细注释,说明每个部分的功能。
复制代码

这个测试相当有难度,需要精确的物理计算和碰撞检测。

来看看 Kimi K2 出来的:

Claude4 的效果如下:

另外我同时对比了下用豆包大模型 1.6 和 Minimax agent 做出来的效果:

结论:部分模型无法直出效果,Claude4、豆包大模型 1.6 碰撞检测精准,没有出现穿透边界的情况,且六边形旋转与小球运动完全同步。

电商产品详情页管理工具

下面来看个实际编程 case,做电商产品详情页管理工具,提示词如下:

从零开始实现一个web电商产品详情页管理工具,包括图片预览、SKU选择、动态定价和性能优化
1、强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差
2、中英文混用,中文大字体粗体,英文小字作为点缀
3、简洁的勾线图形化作为数据可视化或者配图元素
4、运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变
5、模仿 apple 官网的动效,向下滚动鼠标配合动效
6、数据可以引用在线的图表组件,样式需要跟主题一致
7、使用 Framer Motion (通过CDN引入)
8、使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript
9、使用专业图标库如Font Awesome或Material Icons(通过CDN引入)
复制代码

先看下豆包 APP 效果:

Kimi K2 效果:

Gemini 2.5 pro 效果:

Claude 4 效果:

结论:这个 case 明显可以看到豆包大模型 1.6 的表现有点突出,Claude 4 也还不错,我还把豆包大模型 1.6 和 Kimi 做下下对比放在一起,效果感受一下:

迷宫可视化工具

下面来 PK 一下迷宫生成与路径查找,这个 case 可以说能很好的考察模型的编程和 agent 能力。提示词如下:

 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫, 并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引力。
复制代码

同样,先来看看豆包大模型 1.6 生成的效果:

再来看看 Kimi K2:

Gemini 2.5 pro 效果:

Claude 4 效果:

Qwen 3 效果:

结论:整体都完成了任务,但从迷宫设计落错上,豆包大模型 1.6 和 Kimi K2 效果表现更好,动画效果更流畅,甚至在- 墙壁碰撞时有轻微的震动反馈。

我也单独把 Qwen 3 和豆包大模型 1.6 拿出来对比了下,就这个 case 来说,豆包大模型 1.6 效果更好一些。

CSV 文件分析并做图表

提取 CSV 文件信息分析后做图表能力,我分别测了各大模型,目前感受下来,差距不大。

分析一份CSV文件中的销售数据,计算总收入并生成图表。
复制代码

这是豆包大模型 1.6 的结果:

这是 Kimi K2 效果:

Gemini 2.5 pro:

其余几个模型基本效果类似,就不一一截图了。

图片识别-逻辑计算

这个 case 主要考察大模型的多模态理解以及逻辑计算能力,提示词如下:

从图片中获取商品的价格,再分别计算后相加
复制代码

这个是素材图片:

测试图片中包含:

  • 主图:商品特写,每个商品都有价格

  • 图片中商品的价格分别为:进口香蕉 600g / 份 ¥6.98、灵芝盆栽 1 束 / 份 ¥19.9、千禧小西红柿 500g / 盒 ¥6.98、洪湖小龙虾 ¥8.9。将这些价格相加可得:6.98 + 19.9 + 6.98 + 8.9 = 42.76 元。

这里识别效果最好的是豆包大模型 1.6,它额外指出了:额外指出:"注意图片右下角有领劵活动,建议用户凑单更划算"

视频识别-动作评分

给一个猫咪跳水运动的视频,给到不同模型,发现在火山上体验的豆包大模型 1.6 支持视频解析。

可以看到回复中能理解视频并做分析。

而 Kimi、Claude 4 暂时还不支持该能力:

目前测下来,豆包大模型 1.6 和 Gemini 2.5 pro 在这块上不分伯仲。

特别值得一提的是,豆包大模型 1.6 原生就支持定位能力,效果非常给力。

说到多模态这块,大家还记得豆包 Seedream 4.0,效果相当炸裂。

总结

由于篇幅有限,只能提供比较明显的对比;实则我测试过好多横向对比。

可以看到,就编码和 Agent 能力,真的不是 Claude 一家独大,我们测试了非常多的 case,表明,像豆包大模型 1.6、Kimi、Qwen 3 表现都还不错,有时候甚至超过了 Claude 4.

而对于多模态能力,Claude 4 更不值一提,豆包大模型 1.6 的多模态能力测下来效果是最好的。

所以,Claude,是什么让你如此猖狂?视我们为敌对,一直封禁?

经过这一轮细节控大比拼,我发现一个有趣的现象:虽然市面上有很多优秀的 AI 大模型,但在某些特定领域,豆包大模型 1.6 的表现确实令人印象深刻:

● UI 设计能力:豆包大模型 1.6 对视觉细节的把握堪称一绝,连阴影参数都调得恰到好处● 代码质量:结构清晰、注释详尽,物理参数设置合理● 工具集成:原生支持 MCP 协议,与外部工具协同工作更加顺畅● 多模态分析:不仅能识别内容,还能提供专业级深度分析

当然,其他模型也各有所长:Kimi K2 在文本处理上更胜一筹,Claude Sonnet 4.5 的逻辑推理能力突出,Gemini2.5 Pro 的创意写作能力非凡,Minimax 在特定领域知识丰富,Qwen3-Coder 的代码生成效率惊人。

几个月后,我相信,模型能力又将会有天翻地覆变化。

让我们好好见证下这个时代吧。

用户头像

苍何

关注

还未添加个人签名 2020-07-03 加入

还未添加个人简介

评论

发布
暂无评论
实测完主流大模型编程与Agent能力,我发现了。。。_苍何_InfoQ写作社区