抢先实测豆包 1.8 模型,多模态 Agent 超强!

这是苍何的第 463 篇原创!
大家好,我是人在火山大会的苍何。
说实话,我现在就在火山引擎 FORCE 原动力大会的现场,人太多了,多到要挤着才能进来。
这一年也见证了豆包大模型的快速成长,今天豆包大模型 1.8 也正式发布。
这次模型的更新带来了更强的 Agent 能力和多模态理解能力,在公开测试集中的表现相对于豆包 1.6 有了很大的提升。
不少能力都可以和其他全球顶尖模型一争高下,在不同场景维度下的测试集表现也很出色。
豆包大模型 1.8 大幅增强工具调用(Tool Use)能力,长文和多轮指令遵循大幅度增强,Coding 能力也显著增强。
具备 OS Agent 落地能力,支持 Agent 完成屏幕操作任务。模型格式输出更稳定,执行规划能力和复杂流程理解再提升,更适合复杂多步多分支的企业级 Agent 任务。
同时视觉理解基础能力大幅跃升,图片理解 Tokens 消耗更少,理解精度更高,单次视频理解帧数从 640 帧提升至 1280 帧,(在 1 秒 1 帧的情况下,可支持 20 分钟长视频理解)。
同时火山方舟应用实验室还支持 Video Cup Tool 体验:新增低帧率(如每 5s 一帧)查看完整视频后,聚焦某个与问题强相关的视频片段,正常或高帧率(如每 1s 一帧或 5 帧)具体理解并回答问题。
模型推理能力更出色,支持思考长度可调节,各模式下思考更加精简,Tokens 更节省。
关于模型信息更新信息给大家介绍完毕,接下来是带来一手实测,其实前些天就拿到了内测资格,这次测试我更聚焦于实际 Agent 复杂场景,而非简单 case 测试。
先是来一个自动写公众号图文并发布的场景,要求根据主题搜索相关图文信息,并写文章,同时发布到公众号后台。
我是在 Trae 中调用豆包大模型 1.8 的 API,然后自定义的智能体。
智能体的提示词是这样子的:
同时配置了 Chrome DevTools MCP 和 MiniMax MCP。
可以看到豆包大模型 1.8 会根据任务自动调用浏览器搜索内容,然后生成文字和配图,最后发布。
整个长时任务,可以看到豆包大模型 1.8 完成的很不错。
另外看一个更复杂的实测,扮演一个 CTO 助手审核邮件匹配出合适的投资项目。
为了测试它到底有多硬核,我给它设置了一个极具挑战性的 Case:模拟一个 CTO 助手,完成一整套 AI 项目的立项审批。
背景:模拟一家奶茶公司,茶小鲜,要投资 AI 项目的,由各个分公司提报项目到指定邮件。CTO 再结合公司的情况进行审查出合适的投资项目。
先给大家看下最终的效果:
整个任务足够复杂,从邮件中提取附件并解析附件,然后去调用众多的公司文件解析,最终生层决策报告。
你可以看下我给的提示词:
可以看到它直接调用 Chrome DevTools MCP,像真人一样登录邮箱、精准筛选、自动下载附件到指定路径。这种 OS Agent 的落地感,真的非常丝滑。
它没有上来就盲目操作,而是先在后台给自己拆解了 10 个任务步骤:
大概总结一下
登录与筛选: 搞定 163 邮箱。登录这个步骤需要人工扫描参与
收集数据(邮件的正文和邮件的附件)
调用 MCP 工具 mcp-email-service 提取结构化数据这里包含了需要结合的本地文件。
每一个 PDF 的文件都至少有十几页,字数非常多,这人要一个个看没个把小时很难看完。
此时整个任务需要加载 5+5 =10 份 PDF 的解析任务,每份文档大小不低于 500kb
最后是战略契合度评估环节,这一点最难,它需要理解 256K 窗口里的那堆复杂战略。
我中途丢给它《中国茶饮 AI 白皮书》和预算制度,它能迅速合并维度,重新修正投资价值。
最终自动在浏览器打开一个带交互功能的 HTML 仪表盘。
最后得到评估报告:
在测试过程中,我有几个非常深刻的体会:
1、工具调用(ToolUse)极其稳定
以前的 Agent 经常会在多步调用中断片,但豆包 1.8 的输出格式非常稳定。即使是面对 mcp_mcp-email-service_parse_pdf 这种复杂的自定义工具,它也能精准传参,报错率低得惊人。
2、思考长度可调节
它支持思考过程的精简或深入。在处理“战略契合度评分”时,我能感觉到它在进行深度逻辑推理;而在处理下载附件这种确定性任务时,它又非常节省 Tokens,这才是成熟模型该有的样子。
3、视觉与多模态的精准度
在 HTML 报告里,它能直接引用 PDF 原始文件的关键页截图,并标注页码。这种对多模态内容的“索引”能力,避免了 AI 常见的胡说八道。
最后统计了下大概的 token 消耗情况:
在企业级复杂的业务场景中,豆包大模型 1.8 更适合处理复杂的 Agent 任务。
看完豆包 1.8 的表现,我一直在想,现在的工具真的太多了,开发者和职场人的切换成本越来越高。
我觉得工具不应该让人去适应它,而应该主动融入我们的工作流。
豆包这次把 Agent、超长上下文和多模态打通,其实是给了每个人一个“一站式”的数字办公室。







评论