从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆 AI 下一场革命。
⏩ 摘要
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
这不(仅仅)是一个新颖的行业术语,更像是一份面向 AGI(通用人工智能)时代的行动纲领与技术宣言。它试图从根本上重塑我们对“文本”的认知,推动人工智能从被动的“信息处理”向主动的“智能决策伙伴”发起终极进化。本文将结合论坛上合合信息图像算法研发总监郭丰俊老师的前沿分享,对这一概念进行全面、深入、系统的专业解读,揭示其“理念提出-学术支撑-产业落地”的严密逻辑与广阔未来图景(仅仅代表个人观点~)。
⏩ 引言:为什么是“多模态文本智能”?一个新概念的“必然”诞生
在人工智能的浪潮之巅,大模型技术正以前所未有的速度迭代。从文本到图像,从语音到视频,多模态(Multimodal)已成为 AI 发展的必然趋势。然而,当信息维度日益丰富,AI 是否真正实现了“理解”世界?还是仅仅停留在“感知”世界的表层?
合合信息在 PRCV 2025 这一关键节点上提出“多模态文本智能技术”,绝非偶然。这背后隐藏着一个深刻的洞察:无论模态如何演进,“文本”所承载的结构化语义信息,始终是 AI 理解世界的核心枢纽与最终输出。
传统的 AI 技术,如 OCR(光学字符识别),解决了“看见”文字的问题;而大语言模型(LLMs)在一定程度上解决了“理解”纯文本的问题。但是,现实世界是多模态的。一份合同、一份财报、一张医疗影像,其信息的完整性绝不仅仅是孤立的文字,而是文字、图像、表格、签名、空间布局等多种模态信息有机结合的产物。
因此,行业亟需一种新技术范式,它必须能够:
重新定义“文本”:将其从“字符”扩展到承载语义的“多模态信息体”。
突破表层语义:实现对多模态信息“立体化”的综合理解。
超越被动响应:让机器从“工具”进化为具备“自主决策”能力的“伙伴”。
合合信息提出的“多模态文本智能技术”,正是对这三大时代需求的正面回应。它试图架起一座桥梁,连接多模态的“感知”与深层次的“认知”,最终通向“决策”的彼岸。
⏩ 第一章:【理念篇】重新定义边界——“文本”是通向 AGI 的核心枢纽
首先,在合合信息的技术理念中,重新定义和拔高“文本”这一基础概念。
🏷️ 1.1 传统“文本”的局限性
我们都了解,在过去几十年信息技术发展中,“文本”通常被狭义地等同于“文字”(Text),即基于特定编码(如 ASCII、Unicode)的字符序列。AI 领域早期的 NLP(自然语言处理)和 OCR 技术,都是围绕这个狭义的“文本”展开的。
NLP 的局限:传统的 NLP 专注于处理纯文本数据,它能理解“合同”这个词的语义,但无法理解这份“合同”中的版面逻辑。比如它无法识别这份“合同”中的签名是在第一页还是最后一页,而这个位置信息在法务上是至关重要的。
OCR 的局限:传统的 OCR 专注于将图像中的文字“转录”为字符。它能“看见”财报表格里的数字“1,000,000”,但它无法理解这个数字是“收入”还是“支出”,更无法理解它与文档另一页的柱状图之间的对应关系。
这些技术虽然强大,但它们都在处理一个“被阉割”的信息维度。它们割裂了信息在现实世界中本该有的多模态联系。
🏷️ 1.2 作为“核心枢纽”的语义信息
合合信息明确提出:“文本”所承载的结构化语义信息,始终是 AI 理解世界的核心枢纽与最终输出。
这一定义的精髓在于两个词:
“结构化语义”:信息不是杂乱无章的。一份文档的标题、正文、脚注,一张图表的图例、坐标轴、数据点,它们之间存在着明确的“结构”关系。而这些结构本身(如空间位置、层级关系)就蕴含着丰富的“语义”。
“核心枢纽”:为什么是枢纽?因为无论是人还是 AI,我们对世界的理解最终都需要落到一个可交流、可推理、可验证的载体上。图像是感性的、瞬时的,而“文本”(广义上的)是理性的、结构化的。AI“看”懂了一幅画,它最终需要输出的是对这幅画的“描述、分析、总结”(即文本信息);AI“看”懂了一份财报,它最终需要输出的是“数据洞察、风险预警”(即结构化的文本结论)。
因此,合合信息认为,文本广泛存在于多模态的媒介形式之中。图像中的文字是文本,图像中的版面布局是文本,视频中的字幕是文本,甚至自然场景中物体的空间排列关系,也是一种广义的“文本”。
🏷️ 1.3 为什么“文本”是通向 AGI 的必经之路?
AGI(通用人工智能)的标志之一是具备类人的复杂推理和理解能力。人类的智慧,很大程度上是建立在对结构化信息(语言、文字、符号系统)的掌握之上的。
合合信息的理念点明了:AI 如果仅仅满足于模仿人类的“感官”(看、听),而无法像人类一样构建一个强大的“语义中枢”(即广义的“文本”处理能力),那么它就永远无法实现真正的“智能”。
因此,攻克“多模态文本智能”,就是抓住了通往 AGI 的必经之路。这个重新定义,为整个技术框架奠定了坚实的理论基础,也极大地拓展了 AI 能力的边界。
如下为此次会议上,合合信息所分享的第一大点:多模态文本智能的技术与应用:
⏩ 第二章:【学术篇】突破表层语义——“立体化综合理解”的学术基石
在重新定义了“文本”之后,接下来的关键一步,就是如何“理解”这种全新的、多模态的文本。这不仅仅是“看见”文字,而是要赋予机器真正的“阅读理解”能力,即“立体化综合理解”。
🏷️ 2.1 “立体化理解”的挑战:“孤立信息”的困境
行业背景下面临的传统技术痛点:
合同:条款的效力与签名位置相关。
传统 AI:OCR 识别条款文字,再用 NLP 分析条款语义。它无法将“签名(一个图像元素)”和“特定条款(一段文字)”在“空间位置”上的关联性,与“法律效力(一个高阶语义)”联系起来。
立体化理解:AI 能同时“看”到文字、签名图像、日期,并理解它们在同一页、同一区域的“空间布局”所蕴含的法律意义。
财报:数据的陈述需对照表格验证。
传统 AI:OCR 识别文字“本季度营收增长 50%”,再识别表格中的数字“50%”。它无法主动建立这两者之间的“交叉验证”关系。
立体化理解:AI 应能解析文档结构,知道这是一份“财报”。它能定位到“结论句”,并自动在文档中(甚至跨页)搜索“数据支撑体”(如表格、图表),进行比对和核验。
🏷️ 2.2 核心关键:理解“空间位置”背后的“深层语义逻辑”
合合信息强调,该技术实现了“对多模态下文档版面结构的语义级解析”。这里的核心就是 “空间位置”。
在人类的阅读习惯中,空间位置蕴含着海量的隐性语义:
位置(Position):页眉、页脚、标题、正文。
邻近(Adjacency):图表和图注总是放在一起。
对齐(Alignment):表格的列对齐定义了“同类数据”。
嵌套(Nesting):一个框图内部的文字,从属于这个框图代表的概念。
“多模态文本智能技术”就是要让 AI 学会这套人类习以为常的“版面语法”(Layout Grammar)。这不仅是几何定位,更是“语义级”的解析。
⏩ 第三章:【落地篇】从“工具”到“伙伴”——合合信息的产业整合与“自主决策”
如果说第一章定义了“理念”,第二章构建了“学术基石”,那么第三章的核心就是看合合信息如何“整合”这些前沿技术,将其“落地”到产业应用中,实现最终极的目标——“让从理解到具备自主决策能力”。
🏷️ 3.1 “被动工具” VS “主动伙伴”
被动工具:你给它一张图,它给你一串文字。你给它一个指令,它执行一个动作。它永远在“等待”你的指令。传统的 OCR、文档解析系统,本质上都是被动工具。
主动伙伴:它在完成“感知”和“理解”(第二章的能力)后,能 “识别问题” 并 “主动执行相应动作”。它具备了更接近人类判断逻辑的自主决策能力。它从“等你下令”进化到了“我来搞定”。
🏷️ 3.2 “自主决策”的落地:郭丰俊博士的分享与产品实践
在论坛上,合合信息图像算法研发总监郭丰俊博士的报告《文本智能前沿技术与创新应用》,系统地展示了“自主决策”能力是如何从理念走向现实的。我们可以沿着他的分享,从感知、认知、安全三个层面,来深度剖析这一产业落地过程。
1. 感知层的自主决策:智能图像处理(扫描全能王)
用户场景:用户在各种复杂环境下拍摄文档:灯光昏暗、手抖、有阴影、角度倾斜,或遇到摩尔纹、手写字迹干扰等。
自主决策(主动):AI 首先对图像进行多维度分析,主动“识别问题”:“光线不足”、“角度倾斜”、“摩尔纹干扰”等十余种。随后,系统“自主决策”,动态选择最优处理路径和算法,一键输出最佳结果。用户只需按下快门,剩下的复杂决策,都交给了 AI 伙伴。
比如如下通过多模态使用案例 1 文字图像质量提升-前后对比图:
再举例,借用会上 PPT 所示,摩尔纹去除案例 2-前后对比图:
摩尔纹去除案例 3 手写擦除-前后对比图:
认知层的自主决策:智能文档解析(TextIn xParse)
用户场景:企业需要处理海量文档(财报、合同、发票),构建知识库或用于 RAG,其中包含大量跨页表格、合并单元格、图表、手写签名等复杂元素。
自主决策(主动):xParse 能精准识别“跨页表格”、“合并单元格”等多模态元素。当 AI 检测到两个物理上分离的表格时(如 2.1 中的财报例子),它能通过分析表头、列对齐和上下文,“决策”它们是否为同一个逻辑表格,并“主动执行‘表格合并’动作”。它主动对信息进行结构化,为下游 RAG 应用提供高质量、可信的数据输入。
案例 4:xParse 应用 1:
案例 5:xParse 提升 RAG 应用效果样例:
3. 安全层的自主决策:AI 鉴伪技术
决策升级:AI 的决策不再是“优化”或“解析”,而是对内容“真实性”的“判断”。
多模态需求:这必须依赖深度的多模态文本智能。例如,鉴别篡改票据,需要综合分析“文本”字体、“印章(图像)”痕迹、“版面(结构)”等多维度信息,基于对相关技术的钻研,郭博士团队斩获 ICDAR 2023、2024 全球 AI 攻防挑战赛等多项冠军。
🏷️ 3.3 “自主决策”的意义:从“授人以鱼”到“授人以渔”
“多模态文本智能技术”所追求的“自主决策”,是 AI 应用价值的根本性飞跃。
传统 AI(授人以鱼):你告诉它问题,它给你答案。
多模态文本智能 AI(授人以渔/甚至帮你打鱼):它能主动发现问题、分析问题,并自主调用工具(图像处理、信息抽取、智能纠错)来解决问题。
这正是合合信息所说的,从“被动工具”进化成“主动伙伴”。
至此,我们已经完整剖析了合合信息“多模态文本智能技术”的三大层次。
⏩ 结论:不止于“智能”,更关乎“伙伴”——AGI 时代的序章
简言之,合合信息推出的“多模态文本智能技术”,绝非一个孤立的技术概念,而是一个精心布局、逻辑严密、学研产深度融合的宏大战略。
通过郭丰俊博士的分享,我们看到合合信息如何将理论整合,并通过扫描全能王、TextIn xParse 和 AI 鉴伪等产品,将“自主决策”落地,证明了这套理念的商业价值和技术壁垒。
这项技术的核心,是推动 AI 从一个冰冷的“工具”向一个有温度、能思考、可信赖的“伙伴”转变。
我们所迎来的,将是一个真正“懂你”、“帮你”的智能时代。合合信息的“多模态文本智能技术”,无疑是为这个时代的到来,奏响了嘹亮而坚定的序章!
版权声明: 本文为 InfoQ 作者【bug菌】的原创文章。
原文链接:【http://xie.infoq.cn/article/c725edc69aa59493db2bbeef3】。文章转载请联系作者。







评论