写点什么

抢先实测豆包 1.8 模型,多模态 Agent 超强!

作者:苍何
  • 2025-12-23
    湖北
  • 本文字数:2871 字

    阅读完需:约 9 分钟

抢先实测豆包1.8模型,多模态Agent超强!

这是苍何的第 463 篇原创!

大家好,我是人在火山大会的苍何。

说实话,我现在就在火山引擎 FORCE 原动力大会的现场,人太多了,多到要挤着才能进来。

这一年也见证了豆包大模型的快速成长,今天豆包大模型 1.8 也正式发布。

这次模型的更新带来了更强的 Agent 能力和多模态理解能力,在公开测试集中的表现相对于豆包 1.6 有了很大的提升。

不少能力都可以和其他全球顶尖模型一争高下,在不同场景维度下的测试集表现也很出色。

豆包大模型 1.8 大幅增强工具调用(Tool Use)能力,长文和多轮指令遵循大幅度增强,Coding 能力也显著增强。

具备 OS Agent 落地能力,支持 Agent 完成屏幕操作任务。模型格式输出更稳定,执行规划能力和复杂流程理解再提升,更适合复杂多步多分支的企业级 Agent 任务。

同时视觉理解基础能力大幅跃升,图片理解 Tokens 消耗更少,理解精度更高,单次视频理解帧数从 640 帧提升至 1280 帧,(在 1 秒 1 帧的情况下,可支持 20 分钟长视频理解)。

同时火山方舟应用实验室还支持 Video Cup Tool 体验:新增低帧率(如每 5s 一帧)查看完整视频后,聚焦某个与问题强相关的视频片段,正常或高帧率(如每 1s 一帧或 5 帧)具体理解并回答问题。

模型推理能力更出色,支持思考长度可调节,各模式下思考更加精简,Tokens 更节省。

关于模型信息更新信息给大家介绍完毕,接下来是带来一手实测,其实前些天就拿到了内测资格,这次测试我更聚焦于实际 Agent 复杂场景,而非简单 case 测试。

先是来一个自动写公众号图文并发布的场景,要求根据主题搜索相关图文信息,并写文章,同时发布到公众号后台。

我是在 Trae 中调用豆包大模型 1.8 的 API,然后自定义的智能体。

智能体的提示词是这样子的:

你是专业的内容编辑,擅长做公众号文章的创作,你能根据指定的主题创作一篇公众号文章,并写入到文件中,文件名以标题.md来命名,你需要先调用Chrome DevTools 工具去浏览器搜索查找相关信息(注意这一步是必须的,你必须调用工具自行百度搜索,搜索内容是用户输入的主题,请严格将用户主题放入搜索而非其他多余元素),然后调用MiniMax MCP工具来生成文章配图,放在image文件夹下,并引入到到文章中。最后帮我到公众号后台发布。公众号标题你自行选择爆款标题。
复制代码

同时配置了 Chrome DevTools MCP 和 MiniMax MCP。

可以看到豆包大模型 1.8 会根据任务自动调用浏览器搜索内容,然后生成文字和配图,最后发布。

整个长时任务,可以看到豆包大模型 1.8 完成的很不错。

另外看一个更复杂的实测,扮演一个 CTO 助手审核邮件匹配出合适的投资项目。

为了测试它到底有多硬核,我给它设置了一个极具挑战性的 Case:模拟一个 CTO 助手,完成一整套 AI 项目的立项审批。

背景:模拟一家奶茶公司,茶小鲜,要投资 AI 项目的,由各个分公司提报项目到指定邮件。CTO 再结合公司的情况进行审查出合适的投资项目。

先给大家看下最终的效果:

整个任务足够复杂,从邮件中提取附件并解析附件,然后去调用众多的公司文件解析,最终生层决策报告。

你可以看下我给的提示词:

作为 CTO 助手,请按照以下详细流程完成 AI 项目审批工作:1. 邮件筛选与提取:● 使用 Chrome DevTools 工具登录 163 邮箱● 精确筛选满足以下条件的邮件: ○ 主题包含"立项申请"的邮件 ○ 主题包含"2026年战略重点"的邮件● 确保完整获上述取邮件正文内容和所有附件1. 附件下载与存储:● 将所有符合条件的邮件附件下载至指定路径:/Users/Downloads/*.pdf2. 内容解析与整合:● 调用 mcp-email-service 中的专用解析工具● 对每份PDF附件进行结构化解析● 将解析结果与对应邮件正文内容进行智能整合3. 战略契合度评估:● 以公司最新发布的 邮件 2026年战略重点 的正文和附件内容 为评估基准● 为每个项目生成量化评分和详细评估意见4. HTML汇报页面制作:● 创建专业的企业级HTML静态页面,包含: ○ 项目概览仪表盘 ○ 战略契合度雷达图 ○ 预算分配饼图 ○ ROI预测折线图● 确保所有数据展示均标注明确来源: ○ 直接引用原始PDF文件关键页截图 ○ 标注具体引用位置(页码/段落)● 实现交互功能: ○ 点击数据可跳转至对应PDF原文 ○ 支持筛选和排序功能5. 自动交付:● 生成完成后自动在默认浏览器中打开HTML页面质量要求:1. 数据准确性:所有引用数据必须与原始文件100%一致2. 视觉规范:符合公司VI标准,使用官方配色方案3. 安全要求:处理过程中不得存储任何敏感邮件内容
复制代码

可以看到它直接调用 Chrome DevTools MCP,像真人一样登录邮箱、精准筛选、自动下载附件到指定路径。这种 OS Agent 的落地感,真的非常丝滑。 

它没有上来就盲目操作,而是先在后台给自己拆解了 10 个任务步骤:

1、登录163邮箱并筛选包含"立项申请"的邮件2、下载符合条件邮件的所有PDF附件到/Downloads/3、调用mcp-email-service解析所有PDF附件和邮件正文4、以指定基准文件评估项目战略契合度,选出最合适的投资项目5、创建企业级HTML静态汇报页面,包含仪表盘、图表和交互功能6、在默认浏览器中打开生成的HTML页面完成交付7、解析新增补充文档:中国茶饮AI应用白皮书、投资回报分析报告、预算制度、人力资源档案8、结合补充文档重新评估项目投资价值,确定最终最优项目9、更新HTML评估报告,整合新的评估维度10、重新打开更新后的HTML报告完成最终交付
复制代码

大概总结一下

登录与筛选: 搞定 163 邮箱。登录这个步骤需要人工扫描参与

收集数据(邮件的正文和邮件的附件)

调用 MCP 工具 mcp-email-service 提取结构化数据这里包含了需要结合的本地文件。

每一个 PDF 的文件都至少有十几页,字数非常多,这人要一个个看没个把小时很难看完。

此时整个任务需要加载 5+5 =10 份 PDF 的解析任务,每份文档大小不低于 500kb

最后是战略契合度评估环节,这一点最难,它需要理解 256K 窗口里的那堆复杂战略。

 我中途丢给它《中国茶饮 AI 白皮书》和预算制度,它能迅速合并维度,重新修正投资价值。

最终自动在浏览器打开一个带交互功能的 HTML 仪表盘。

最后得到评估报告:

在测试过程中,我有几个非常深刻的体会:

1、工具调用(ToolUse)极其稳定

以前的 Agent 经常会在多步调用中断片,但豆包 1.8 的输出格式非常稳定。即使是面对 mcp_mcp-email-service_parse_pdf 这种复杂的自定义工具,它也能精准传参,报错率低得惊人。 

2、思考长度可调节

它支持思考过程的精简或深入。在处理“战略契合度评分”时,我能感觉到它在进行深度逻辑推理;而在处理下载附件这种确定性任务时,它又非常节省 Tokens,这才是成熟模型该有的样子。

3、视觉与多模态的精准度

在 HTML 报告里,它能直接引用 PDF 原始文件的关键页截图,并标注页码。这种对多模态内容的“索引”能力,避免了 AI 常见的胡说八道。 

最后统计了下大概的 token 消耗情况:

在企业级复杂的业务场景中,豆包大模型 1.8 更适合处理复杂的 Agent 任务。

看完豆包 1.8 的表现,我一直在想,现在的工具真的太多了,开发者和职场人的切换成本越来越高。

我觉得工具不应该让人去适应它,而应该主动融入我们的工作流。

豆包这次把 Agent、超长上下文和多模态打通,其实是给了每个人一个“一站式”的数字办公室。

用户头像

苍何

关注

还未添加个人签名 2020-07-03 加入

还未添加个人简介

评论

发布
暂无评论
抢先实测豆包1.8模型,多模态Agent超强!_苍何_InfoQ写作社区