智源发布三款 BGE 新模型，再次刷新向量检索最佳水平

2024-07-31
北京
本文字数：1555 字
阅读完需：约 5 分钟

近期，以大语言模型（LLM）为基础的向量模型（embedding model）变得愈发流行。得益于大语言模型强大的语义理解能力，相关模型在下游任务中的检索精度得到了显著的提升。然而，当前基于大模型的向量模型（LLM-backended embedding model）仍然单纯依靠标签数据进行微调，缺乏灵活应对不同下游任务的能力。与此同时，当前的模型大都支持英文且主要面对向量检索任务（dense retrieval），相比之下，针对其他语言以及更多检索任务的模型较为不足。

针对上述问题，智源研究院发布三款全新模型：英文向量模型 BGE-EN-ICL，多语言向量模型 BGE-Multilingual-Gemma2，多语言重排序模型 BGE-Reranker-v2.5-Gemma2-Lightweight。这些模型进一步刷新了 MTEB、BEIR、MIRACL、AIR-Bench 等主要评测基准的最佳水平，同时借助情境学习（in-context learning）获得了出色的自适应能力，这为向量模型的进一步发展带来了新的可能性。

模型链接：

(1) BGE-EN-ICL: https://huggingface.co/BAAI/bge-en-icl

(2) BGE-Multilingual-Gemma2: https://huggingface.co/BAAI/bge-multilingual-gemma2

(3) BGE-Reranker-v2.5-Gemma2-Lightweight: https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight

特点

（1）基于大模型训练

智源推出的三款新模型均基于大语言模型进行训练，因而具备卓越的领域适应能力和广泛的泛化性能，使其能够在各种任务中展现出色的表现，适应不同应用场景的需求。

（2）情境学习能力

在以往的工作中，例如 e5-mistral-7b 和 SFR，虽然已经提出通过在查询前提供任务描述来提升查询嵌入的语义丰富性，但这些方法并未充分挖掘模型的上下文学习能力。为此，智源推出了 BGE-EN-ICL 模型。在查询端，除了提供任务描述外，还引入了任务相关的查询-文档示例作为少量示例（few-shot examples），这进一步增强了模型的语义表达能力，使其在复杂任务或是训练数据中所未见过的任务中表现更加优越。

（3）蒸馏技术

BGE-EN-ICL 和 BGE-Multilingual-Gemma2 模型在检索数据集上采用重排器作为教师模型进行蒸馏训练。这不仅提升了模型的整体性能，还增强了其在检索任务中的能力，使其在面对多样化数据时更加高效。

（4）轻量化设计

针对用户对模型使用便捷性的需求，BGE-Reranker-v2.5-Gemma2-Lightweight 模型在 bge-reranker-v2-minicpm-layerwise 的基础上进行了进一步优化。该模型不仅支持逐层提前输出，还能在前向传输过程中实现 token 压缩。这两种技术的结合大大节省了计算资源，同时保持了卓越的性能表现。

实验结果

A. 中英文能力

（1）MTEB

在 MTEB 榜单中，多语言模型 BGE-Multilingual-Gemma2 表现出色，而 BGE-EN-ICL 的 few-shot 表现尤为突出

（2）BEIR

在 BEIR 榜单中，多语言模型 BGE-Multilingual-Gemma2 依然表现优异，而 BGE-EN-ICL few-shot 的结果更为出色。

基于 bge-large-en-v1.5 和 e5-mistral-7b-instruct，BGE-Reranker-v2.5-Gemma2-Lightweight 分别对它们的 BEIR 检索结果的 top-100 进行重排，达到了更好的结果，并在节省 60% flops 的情况下仍保证了优越的效果。