AltCLIP:改变语言编码器,扩展语言功能
出品人:Towhee 技术团队 张晨、顾梦佳
AltCLIP 提出了一种概念上简单有效的方法,以训练强大的双语或多语多模态表征模型。 以 OpenAI 发布的预训练多模态表示模型 CLIP 为基础,AltCLIP 另外采用了预训练的多语言文本编码器 XLM-R,并通过一个由教师学习和对比学习组成的两阶段训练模式来调整语言和图像表示。 实验结果表明,AltCLIP 在各种公开的图像数据集的一系列任务中均取得了最先进的性能,包括 ImageNet-CN、Flicker30k-CN、COCO-CN 和 XTD。 此外,它在几乎所有任务上都与 CLIP 性能接近,这表示简单地更改 CLIP 中的文本编码器便能获得扩展功能,比如多语言理解。
The framework of AltCLIP.
AltCLIP 在一个两阶段的框架下学习强大的双语语言-图像表示。在第一阶段,通过教师学习策略提炼从大规模预训练模型 CLIP 学到的知识。该阶段使用 CLIP 的文本编码器作为教师文本编码器,而将 XLM-R 模型在多语言数据上的预训练作为学生编码器。然后通过一个全连接层,统一 XLMR 模型与教师编码器的输出维度。在第二阶段,通过对比学习对相对较少的中文和英文文本-图像对进行模型训练。该阶段旨在通过对多语言文本-图像对的对比学习来进一步提高文本-图像的一致性。这里框架使用了基于 ViT 的图像编码器,并使用从另一阶段学到的学生文本编码器作为文本编码器。
相关资料:
评论