写点什么

Test-time Scaling

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治 + 动态聚焦,GUI 智能体推理时扩展的新范式

本文提出了一种无需额外训练的GUI定位框架DiMo-GUI,通过​​逐级缩放动态聚焦​​目标区域减少视觉冗余,并​​分离文本与图标模态​​独立推理后综合评估确定目标,有效平衡多模态能力。在基准测试中性能显著提升,适用于网页导航和移动应用自动化等场景。

Test-time Scaling_Test-time Scaling技术文章_InfoQ写作社区