生成式 AI 实现多模态信息检索新突破
多模态信息检索的生成式革新
过去十年间,机器学习(ML)严重依赖嵌入(embedding)概念:模型将输入数据转换为向量,使向量空间中的几何关系具有语义含义。例如,嵌入位置相近的单词可能含义相似。这种范式下的信息检索流程是:将查询嵌入表示空间,模型选择与之最接近的嵌入作为响应。多模态检索也遵循此模式,文本和图像可嵌入同一空间。
然而随着生成式 AI 的兴起,传统检索方式面临革新。在 2025 年计算机视觉与模式识别会议(CVPR)上提出的 GENIUS 框架(通用多模态搜索生成框架),实现了生成式 AI 时代的信息检索突破。该模型支持图像、文本及图文对的任意组合输入输出。
嵌入检索(a)需逐项比对查询与候选向量,而生成式检索(b/c)直接生成唯一 ID。GENIUS(c)的首位 ID 码标识输出模态。
技术架构创新
GENIUS 通过两项关键创新显著提升性能:
语义量化
训练阶段通过残差量化生成目标 ID 序列:首位编码定义数据模态(图像/文本/图文对),后续编码逐级细化表示空间区域。共享前 N 位编码的数据在表示空间中具有层级化聚类关系。
查询增强
通过在表示空间内插值原始查询与目标 ID 生成新查询,使模型学习到多查询映射同一目标的模式,显著提升泛化能力。
三阶段架构:(0)预训练独立编码器;(1)通过对比学习训练残差量化模块;(2)解码器直接生成目标 ID。推理时通过字典树约束输出序列。
性能表现
在 M-BEIR 基准测试中:
文本到图像检索任务(COCO 数据集)Recall@5 指标超越最优生成式方法 28.6 分
结合嵌入重排序后,性能较纯生成式方法提升 31%-56%
数据规模越大,相比传统嵌入方法的效率优势越显著
该框架在保持生成式检索效率优势(免索引构建、恒定检索时间)的同时,将生成式与嵌入式方法的性能差距缩小到可接受范围,标志着多模态检索领域的重大进步。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

评论