写点什么

TextHarmony

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/08/08a91561ca7b78fd24e1acf661dacaeb.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

NeurIPS 2024|统一的多模态文字理解与生成大模型

本文介绍NeurIPS 2024录用论文“Harmonizing Visual Text Comprehension and Generation”的主要工作。这篇文章提出了首个OCR领域的大一统多模态文字理解与生成大模型,即TextHarmony。TextHarmony不仅精通视觉文本的感知(文字检测识别等)、理解(KIE、VQA

TextHarmony_TextHarmony技术文章_InfoQ写作社区