写点什么

ERNIE-4.5-VL:技术解密 + 应用实战,解锁多模态新场景!

作者:百度Geek说
  • 2025-08-28
    北京
  • 本文字数:580 字

    阅读完需:约 2 分钟

当人工智能进入深度应用的黄金时代,单一模态的局限正被多模态交互彻底打破。文心 ERNIE-4.5-VL 视觉语言模型( ERNIE-4.5-VL-28B-A3B;ERNIE-4.5-VL-424B-A47B )以突破性的图文、视频理解与推理能力,架起数字世界与物理世界的智能桥梁,更支持 100+语言交互,让跨模态智能触手可及。




实验结果表明,轻量级视觉语言模型 ERNIE-4.5-VL-28B-A3B 的激活参数显著减少,但与 Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 等模型相比,其在大多数基准测试中仍具有竞争力,甚至表现更优。


ERNIE-4.5-VL 模型支持 128K 上下文长度,结合“思考模式”与“非思考模式”双选项,既能快速响应基础任务,又能深度破解复杂问题,灵活适配从日常场景到专业领域的全场景需求。


ERNIE-4.5-VL 的跨模态能力覆盖以下核心任务场景:



▎相关链接


文心大模型技术 Blog(含技术报告下载):


https://yiyan.baidu.com/blog/posts/ernie4.5


文心 4.5 系列模型下载



文心 4.5 系列模型训练部署


用户头像

百度Geek说

关注

百度官方技术账号 2021-01-22 加入

关注我们,带你了解更多百度技术干货。

评论

发布
暂无评论
ERNIE-4.5-VL:技术解密+应用实战,解锁多模态新场景!_百度Geek说_InfoQ写作社区