写点什么

多模态大语言模型

0 人感兴趣 · 2 次引用

  • 最新
  • 推荐

聚焦结构化注意力,探索提升多模态大模型文档问答性能

本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,LaTeX 范式结构化输入能显著提升表现。

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治 + 动态聚焦,GUI 智能体推理时扩展的新范式

本文提出了一种无需额外训练的GUI定位框架DiMo-GUI,通过​​逐级缩放动态聚焦​​目标区域减少视觉冗余,并​​分离文本与图标模态​​独立推理后综合评估确定目标,有效平衡多模态能力。在基准测试中性能显著提升,适用于网页导航和移动应用自动化等场景。

多模态大语言模型_多模态大语言模型技术文章_InfoQ写作社区