多模态大语言模型
0 人感兴趣 · 1 次引用
- 最新
- 推荐
EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治 + 动态聚焦,GUI 智能体推理时扩展的新范式
本文提出了一种无需额外训练的GUI定位框架DiMo-GUI,通过逐级缩放动态聚焦目标区域减少视觉冗余,并分离文本与图标模态独立推理后综合评估确定目标,有效平衡多模态能力。在基准测试中性能显著提升,适用于网页导航和移动应用自动化等场景。
0 人感兴趣 · 1 次引用
本文提出了一种无需额外训练的GUI定位框架DiMo-GUI,通过逐级缩放动态聚焦目标区域减少视觉冗余,并分离文本与图标模态独立推理后综合评估确定目标,有效平衡多模态能力。在基准测试中性能显著提升,适用于网页导航和移动应用自动化等场景。