实测完主流大模型编程与 Agent 能力,我发现了。。。

这是苍何的第 434 篇原创!
大家好,我是苍何。
不瞒你说,这是一篇拖了一个多月的文章。
那个时候,大模型纷纷狂发,GPT5、Claude4、Gemini2.5 Pro、Kimi K2,doubao 1.6 、Qwen 3、GLM 4.5 等陆续出来。
除此之外,vibe coding 工具也是一路狂飙,先不说 Cursor、Trae 吧,后来追上的 Claude Code 火了后,AI CLI 工具也疯狂连发。
腾讯、字节、阿里等大厂疯狂更新自家大模型和 AI 编程工具。
但对很多人来说,真的有点学不过来了,这其中就包括我。
特别是涉及 code 能力、 Agent 能力、多模态能力,到底哪个大模型好,目前我们的差距在哪儿?优势在哪儿?
于是大概一个多月前,我就整理测了主流模型的能力表现。(截图部分)

从这些测评 case,对大模型的拷打,多少能得到一些我们想要的答案。
但一直没有好好发出来,是因为这一个多月来,太多要详测的东西了。
今天终于有时间能发出来了,但由于文章篇幅限制问题,这一篇就先对比下 doubao 1.6、 Kimi K2、Claude Sonnet 4、Gemini 2.5 Pro、Qwen 3。
保命申明:部分 case 及灵感灵感来源网络,如有侵权,请联系作者。其中豆包大模型 1.6 是基于火山方舟测试。
可视化欧拉恒等式
首先,我给各模型出了个不算太难但很能体现功底的题目:可视化欧拉恒等式
这是 Kimi K2 效果:

这是豆包 APP 效果:

Gemini 2.5 Pro 效果如下:

Claude Sonnet 4 出来的效果:

试了 Qwen 3-Coder,是这个效果:

结论:整体效果大差不差,豆包大模型 1.6 等国内模型和 Claude 展现出的效果接近,但前端美观度上,Claude 在这个 case 里面保持了些许领先吧。
带有动画效果的天气卡片
再来看个不算太难但很能体现设计功底的题目:带有动画效果的天气卡片
先看下豆包大模型 1.6 的效果:

然后是 Kimi K2:

看下 Gemini 2.5 pro 的效果:

这是 Claude 4 效果:

最后看下 Qwen 3 出来的效果:

结论:这一轮中 Kimi K2 稍微有点不及预期,但 Qwen 3 和 doubao 1.6 表现不错,甚至比 Gemini 2.5 pro 稍微好些。
为了方便对比,我还特意做了豆包大模型 1.6 和 Gemini 2.5 pro 同框:

Gemini2.5 Pro 生成的结果功能上没问题,但整体设计偏保守,动画效果简单,交互反馈不够细腻。晴天卡片上的太阳就像个静止的 emoji,大风卡片的云朵动效卡顿得像 PPT 翻页。
豆包大模型 1.6 完美复刻了 iOS 18 的毛玻璃效果,连高斯模糊参数都调得和官网一致,看来豆包大模型 1.6 在 UI 设计细节处理上确实下了一番功夫!
设计 breakout 游戏
再来看个经典的游戏场景:设计 breakout 游戏
先看下豆包大模型 1.6 效果:

接下来是 Kimi K2 效果:

Gemini2.5 Pro 效果如下:

Claude 效果如下:

Qwen3 出来的效果:

结论:这一轮国产模型胜过 Claude 和 Gemini 2.5 Pro,无论是效果还是真实可玩性上,相对来说,豆包大模型 1.6 和 Qwen 3 效果最好。
《木兰辞》的动态页面
接下来是一个有意思的 case:《木兰辞》的动态页面
豆包 APP 效果如下:

Kimi K2 效果如下:

Gemini2.5 Pro 效果:

Claude 4 效果:

Qwen 3 效果:

结论:这个 case,表现最好的当属豆包 APP,无论是文字效果还是底部 Padding 都不错,Kimi K2 和 Claude 4 勉强也过得去,但 Qwen 3 和 Gemini 2.5 Pro 就有点抽象了,Gemini 2.5 Pro 直接出不来效果,Qwen 3 没遵循我的要求。
六边形弹力小球测试
六边形弹力小球测试属于测试模型能力的经典 Case,我们看看各家模型能力如何。提示词:
这个测试相当有难度,需要精确的物理计算和碰撞检测。
来看看 Kimi K2 出来的:

Claude4 的效果如下:

另外我同时对比了下用豆包大模型 1.6 和 Minimax agent 做出来的效果:

结论:部分模型无法直出效果,Claude4、豆包大模型 1.6 碰撞检测精准,没有出现穿透边界的情况,且六边形旋转与小球运动完全同步。
电商产品详情页管理工具
下面来看个实际编程 case,做电商产品详情页管理工具,提示词如下:
先看下豆包 APP 效果:

Kimi K2 效果:

Gemini 2.5 pro 效果:

Claude 4 效果:

结论:这个 case 明显可以看到豆包大模型 1.6 的表现有点突出,Claude 4 也还不错,我还把豆包大模型 1.6 和 Kimi 做下下对比放在一起,效果感受一下:

迷宫可视化工具
下面来 PK 一下迷宫生成与路径查找,这个 case 可以说能很好的考察模型的编程和 agent 能力。提示词如下:
同样,先来看看豆包大模型 1.6 生成的效果:

再来看看 Kimi K2:

Gemini 2.5 pro 效果:

Claude 4 效果:

Qwen 3 效果:

结论:整体都完成了任务,但从迷宫设计落错上,豆包大模型 1.6 和 Kimi K2 效果表现更好,动画效果更流畅,甚至在- 墙壁碰撞时有轻微的震动反馈。
我也单独把 Qwen 3 和豆包大模型 1.6 拿出来对比了下,就这个 case 来说,豆包大模型 1.6 效果更好一些。

CSV 文件分析并做图表
提取 CSV 文件信息分析后做图表能力,我分别测了各大模型,目前感受下来,差距不大。
这是豆包大模型 1.6 的结果:

这是 Kimi K2 效果:

Gemini 2.5 pro:

其余几个模型基本效果类似,就不一一截图了。
图片识别-逻辑计算
这个 case 主要考察大模型的多模态理解以及逻辑计算能力,提示词如下:
这个是素材图片:

测试图片中包含:
主图:商品特写,每个商品都有价格
图片中商品的价格分别为:进口香蕉 600g / 份 ¥6.98、灵芝盆栽 1 束 / 份 ¥19.9、千禧小西红柿 500g / 盒 ¥6.98、洪湖小龙虾 ¥8.9。将这些价格相加可得:6.98 + 19.9 + 6.98 + 8.9 = 42.76 元。
这里识别效果最好的是豆包大模型 1.6,它额外指出了:额外指出:"注意图片右下角有领劵活动,建议用户凑单更划算"
视频识别-动作评分
给一个猫咪跳水运动的视频,给到不同模型,发现在火山上体验的豆包大模型 1.6 支持视频解析。

可以看到回复中能理解视频并做分析。
而 Kimi、Claude 4 暂时还不支持该能力:

目前测下来,豆包大模型 1.6 和 Gemini 2.5 pro 在这块上不分伯仲。
特别值得一提的是,豆包大模型 1.6 原生就支持定位能力,效果非常给力。

说到多模态这块,大家还记得豆包 Seedream 4.0,效果相当炸裂。

总结
由于篇幅有限,只能提供比较明显的对比;实则我测试过好多横向对比。

可以看到,就编码和 Agent 能力,真的不是 Claude 一家独大,我们测试了非常多的 case,表明,像豆包大模型 1.6、Kimi、Qwen 3 表现都还不错,有时候甚至超过了 Claude 4.
而对于多模态能力,Claude 4 更不值一提,豆包大模型 1.6 的多模态能力测下来效果是最好的。
所以,Claude,是什么让你如此猖狂?视我们为敌对,一直封禁?

经过这一轮细节控大比拼,我发现一个有趣的现象:虽然市面上有很多优秀的 AI 大模型,但在某些特定领域,豆包大模型 1.6 的表现确实令人印象深刻:
● UI 设计能力:豆包大模型 1.6 对视觉细节的把握堪称一绝,连阴影参数都调得恰到好处● 代码质量:结构清晰、注释详尽,物理参数设置合理● 工具集成:原生支持 MCP 协议,与外部工具协同工作更加顺畅● 多模态分析:不仅能识别内容,还能提供专业级深度分析
当然,其他模型也各有所长:Kimi K2 在文本处理上更胜一筹,Claude Sonnet 4.5 的逻辑推理能力突出,Gemini2.5 Pro 的创意写作能力非凡,Minimax 在特定领域知识丰富,Qwen3-Coder 的代码生成效率惊人。
几个月后,我相信,模型能力又将会有天翻地覆变化。
让我们好好见证下这个时代吧。
评论