写点什么

LLM 增强语义嵌入的模型算法综述

作者:百度Geek说
  • 2025-03-13
    上海
  • 本文字数:11058 字

    阅读完需:约 36 分钟

导读

语义嵌入是自然语言处理、信息检索、推荐系统等领域的核心技术,对于精准捕捉文本深层次语义信息至关重要。近年来,大语言模型(LLM)的兴起为语义嵌入技术开拓了新的方向。本文介绍了 LLM 在提升语义嵌入效果的最新模型与算法,聚焦在如何利用 LLM 生成合成数据以及如何作为模型骨干来优化语义嵌入。文章概述了当前研究的主要方向和先进成果,展示了 LLM 在学习语义嵌入方面的独特优势,并展望了其在搜索、推荐等下游任务的广阔应用前景。

01 背景介绍

1.1 语义嵌入

文本语义嵌入,作为将文本映射到语义空间的关键技术,通过将原本高维且稀疏的向量转化为低维稠密向量,实现了对单词、句子乃至整个文档深层次语义信息的精确捕捉。这一技术在信息检索、问答系统、文本相似度计算及推荐系统等自然语言处理(NLP)的诸多任务中展现出广泛的应用价值。


早期语义嵌入方法,诸如 Word2vec 和 GloVe,主要基于统计特性构建,然而,这些方法受限于其静态性,难以充分捕捉自然语言复杂多变的上下文信息。随后,BERT 及其衍生的一系列上下文敏感模型(如 RoBERTa、DistilBERT、ALBERT 等)应运而生,通过独特的模型增强与优化策略,不仅保留了双向编码的核心优势,还显著提升了语义嵌入对上下文信息的感知能力。此外,Sentence-BERT 模型的提出,通过引入连体网络(Siamese Network)和三重网络(Triplet Network)结构,实现了高效的句子级嵌入生成。近年来,随着对比学习框架的兴起,如 SimCSE 等方法利用标准 dropout 作为噪声源,无需额外监督数据即可生成高质量的句子向量,进一步推动了语义嵌入技术的革新与发展。


当前研究热点聚焦于通用文本嵌入技术的优化,通过引入多阶段训练范式和复杂的数据混合策略,如 E5[1]、BGE[2]、GTE[3] 等模型,在数据规模、质量及多样性方面取得了显著进展。随着大语言模型(LLM)的蓬勃发展,利用 LLM 生成语义嵌入成为新的研究方向。研究者们通过合成高质量训练数据以提升嵌入性能,或直接以 LLM 作为模型主干生成嵌入,显著增强了语义嵌入的鲁棒性和泛化能力,为 NLP 领域的未来发展探索出了新的道路。

1.2 大语言模型(LLM)

LLM 作为一种规模宏大的预训练语言模型,通常具有数亿乃至数十亿之多的参数,经由海量数据的训练,已具备理解和生成更为繁复且丰富文本内容的能力。随着模型规模的不断扩张与数据量的显著增加,LLM 已能极为娴熟地应对众多下游自然语言处理任务。凭借其强大的表达能力和出色的泛化性能,LLM 能够应对各类自然语言处理任务,并在诸多场景下展现出超越传统机器学习方法的卓越表现。“预训练+提示”作为 LLM 的第四范式,开创了一种引导生成输出以匹配多样化下游任务需求的新颖路径。在此范式下,模型的适应不再单纯依赖微调,而是通过引入“提示”这一文本或模板元素来引导生成过程,旨在促使模型在接收任务时能够有效唤醒预训练阶段所学到的知识,并据此精准地生成符合任务特定要求的输出。诸如 LLaMA-2[4]、LLaMA-3[5] 及 Mistral[6] 等开源 LLM 模型已取得了显著成效,它们不仅推动了 LLM 在语义嵌入领域的广泛应用,更掀起了利用 LLM 进行语义嵌入研究的热潮。


LLM 语义嵌入与传统语义嵌入之间的对比:



综上所述,使用 LLM 进行语义嵌入与传统语义嵌入(如使用 BERT)在模型结构与训练方式、嵌入质量、应用场景等方面都存在显著差异。这些差异使得 LLM 语义嵌入在复杂的 NLP 任务中表现出更强的性能和适应性。下文将介绍一些当前主流的 LLM 语义嵌入方法。

02 算法解读

随着 LLM 的广泛应用,出现了一些利用 LLM 来生成语义嵌入的尝试。Jiang 等人[7] 首次提出了基于提示(prompt)的句子嵌入方法,结合对比学习框架,通过设计如 “[X] means [MASK]” (其中,[X] 表示一个 placeholder,对应一个句子,[MASK] 则表示待预测的 token)的模板捕捉句子表征,并借助模板去噪避免语义偏向。随后,Zeng 等人[8] 提出了 Prompt-derived Virtual semantic Prototypes(ConPVP)的对比学习方法,利用提示构建虚拟语义原型及否定原型,通过原型对比损失优化句子嵌入。Cheng 等人[9] 则进一步提出了基于 AI 反馈(CLAIF)的句子嵌入对比学习方法,利用来自 LLM 的 AI 反馈来构建具有细粒度样本相似性分数的样本对,提升句子嵌入的监督对比学习的效果。


当前,利用 LLM 提升语义嵌入的研究热点聚焦于合成数据模型骨干两大方向,如图 1 所示。下面将具体介绍各方向的一些代表模型。



△图 1: LLM 提升语义嵌入的算法模型梳理

2.1 合成数据

利用 LLM 进行数据合成正日益受到业界的广泛关注,该方法能够显著提升模型在处理多任务及多语言环境下的能力多样性,从而训练出更为强健的语义嵌入模型,可广泛应用于各类下游任务中。具体而言,LLM 在生成高质量、多语言、多任务合成数据方面展现出巨大潜力。例如,通过将 LLM 作为数据注释工具,可以高效地标注伪监督数据以强化模型训练效果;利用如 GPT-4 等先进的 LLM,可以生成覆盖广泛语言范围及多种语义嵌入任务的合成数据,极大地丰富了训练数据的多样性;此外,合成数据还被用于从大模型中提取知识并融入检索系统中。接下来,本文将重点介绍在 MTEB 基准测试中表现突出的几个典型语义嵌入模型,包括 E5-mistral-7b-instruct[10] 混合真实与 LLM 合成数据进行微调、SFR-Embedding-Mistral[11] 采用改进的难负样本进行多任务微调的方法,以及 Gecko[12] 采用两步蒸馏法将 LLM 知识融入检索器的技术。

2.1.1 E5-mistral-7b-instruct

【主要贡献】


微软的研究团队提出的语义嵌入训练方法,无需复杂的流程设计或人工构建的数据集,只需要利用 LLM 来合成多样化的文本数据,就可以为 93 种语言的数十万文本嵌入任务生成高质量的语义嵌入,整个训练过程还不到 1000 步。


实验结果证明,当仅对合成数据进行微调时,Mistral-7B 在 BEIR 和 MTEB 基准上获得了非常有竞争力的性能;当同时加入合成和标注数据进行微调时,即可实现 SOTA 性能。


【算法概述】


  • 数据合成:


为了生成不同的合成数据,提出了一种简单的分类法,将嵌入任务分为几个组,然后对每个组应用不同的提示模板。如图 2 所示,对于每个组,该算法设计了一个两步提示模板,首先提示 LLM 生成一系列的任务,然后为每个任务生成(用户查询、正样本、难负样本)三元组。“{...}”表示一个占位符,将在其中填入从预先定义的一组值中随机选取的值。


为了覆盖不同的应用场景,该算法为每个任务类型设计了多个提示模板,并将不同模板生成的数据进行组合。为了进一步提高合成数据的多样性,在每个提示模板中加入了几个占位符,在运行时随机采样,例如 {query_length} 是从集合 {少于 5 个单词,5-10 个单词,至少 10 个单词} 中采样的。



△图 2: E5-mistral-7b-instruct 数据合成两步提示模板


  • 训练阶段:


给定一个预训练的 LLM,在查询和文档的末尾添加一个 [EOS] 标记。最后一层 [EOS] 向量被用作语义嵌入。为了帮助模型适应不同的任务,在生成新的查询时,可以使用统一的指令模板,给定相关的查询-文档对,先使用原始查询 来生成一个新的指令,其中 {task_definition} 是嵌入任务的一句话描述的占位符:



最后,选择预训练的开源 LLM Mistral-7B 模型,在对一组混合的合成和标记数据(包含 13 个公开数据集)进行采样后进行微调。

2.1.2 SFR-Embedding-Mistral

【主要贡献】


用改进的难负样本对 E5-mistral-7b-instruct 进行多任务微调,将性能提高了 0.93%。主要结论有:


  • 语义嵌入与聚类任务集成后检索性能显著提高,并通过多任务知识转移进一步增强检索性能。此外,通过采用多任务训练并使模型适应特定任务,可以增强泛化能力。

  • 采用任务同构批处理,即同个 batch 里的所有样本来自于同个任务,这样可以保证对比学习的 in-batch negatives 更具挑战性。

  • 之前的难负样本挖掘方法都是先通过检索将排序靠前的文档作为难负样本,这样有可能混入部分错误的负样本,影响模型训练结果。该方法发现使用排序在 30-100 之间的文档作为难负样本能提升模型性能,而使用排序在 0-100 之间的文档则容易引入错误的负样本,使用排序在 50-100 之间的文档则缺乏训练难度。

2.1.3 Gecko

【主要贡献】


Gecko 提出的主要思想:从 LLM 中提取知识到检索器中。使用两步蒸馏过程:首先使用 LLM 生成不同的任务-查询对数据。接下来通过为每个查询检索一组候选段落,并使用相同的 LLM 重新标记正样本和难负样本段落,进一步改进数据质量。



△图 3: Gecko 整体流程概述


Gecko 选用 gtr-t5-xl (1.2B, encoder from T5-3B model) 模型骨架。通过将 LLM 生成的和经 LLM 排序的数据,与人工标注的数据相结合,Gecko 模型在 MTEB 基准上实现了较好性能。


算法概述】


该方法利用知识蒸馏的思想,创建了一个两步骤的 LLM 驱动的嵌入模型。


  • 多元查询生成


如图 4 所示,首先向 LLM 中输入一段网络文章节选,让其生成任务描述和任务的相关查询:



其中 是从 web 语料库中随机抽取的一个段落,而 是一个固定的提示符。对于每个示例来说,提示模板是相同的,并且由几个示例和说明组成。LLM 生成一个任务描述 t(描述了检索的类型,如问答或事实检查)。通过对这些任务描述进行抽样,可以指导 LLM 生成与任务一致的查询 𝑞。


  • 正负样本挖掘


首先,给定生成的查询 𝑞,使用一个嵌入模型来检索最相关的段落。然后,使用 LLM 根据检索到的段落与查询的相关性对它们进行排序。排序方法采用的是查询似然(query likelihood)和相关性分类(relevance classification)这两个少样本提示的 LLM 排序函数。最后将两种不同提示结果的排名与标准的倒数秩融合(RRF)方法集成在一起,获得排名函数𝑅(𝑞,𝑝),并根据排名找到更多相关的正样本以及生成查询的难负样本。



△图 4 :两步检索流程

2.2 模型骨干

另一类主流方法是将 LLM 作为语义嵌入的主干网络,原因在于它们无需遵循现有语义嵌入模型中普遍采用的对比预训练步骤,使得 LLM 在训练过程中能够更加灵活地处理文本数据。得益于全面的自回归预训练,LLM 能够充分捕捉到文本中的上下文信息和语义关系,具有出色的文本表征能力,并且仅需最少的微调即可转化为高效的通用文本嵌入模型。


同样,后续内容将着重介绍在 MTEB 基准测试中表现优异的几个语义嵌入模型。其中,NV-Embed-v2[13] 模型通过关注潜在向量并采用两阶段对比指令调优方法来提升性能;BGE-EN-ICL[14] 模型则利用 LLM 中的 in-context learning 能力来优化语义嵌入的生成;Echo-mistral[15] 模型采用双向注意机制,通过重复输入并提取第二次出现的嵌入来增强效果;LLM2Vec[16] 模型同样采用了双向注意力机制,还结合掩码下一个 token 预测以及无监督对比学习来提升嵌入效果;GRIT[17] 模型通过训练 LLM 和指令,实现了生成和嵌入任务的统一处理;GTE-Qwen1.5-7B-instruct[18] 模型则利用双向注意力机制、查询侧指令调优,并融合了弱监督与监督数据进行训练;最后,stella_en_1.5B_v5[19] 模型简化了提示的使用,为大多数通用任务提供了序列到段落(s2p)和序列到序列(s2s)两种便捷的提示方式。

2.2.1 NV-Embed-v2

【主要贡献】


一个通用文本嵌入模型,NV-Embed-v2 提出了几个新的设计,包括让 LLM 关注潜在向量以获得更好的池化嵌入输出,并展示了一种两阶段指令调优方法以提高检索和非检索任务的准确性。此外,NV-Embed-v2 采用了一种新的难负样本挖掘方法,该方法考虑了正样本的相关分数,以更好地去除假负样本。


基于预训练的 Mistral-7B 模型进行训练,该模型在大规模文本嵌入基准(MTEB 基准)(截至 2024 年 12 月 3 日)中排名第一,在 56 个文本嵌入任务中得分为 72.31。


【算法概述】


  • 模型架构


提出了一种潜在注意层来获得一系列 token 的池嵌入。如图 5 所示,将解码器最后一个隐藏层表示为查询 Q,然后结合潜在数组 K = V(可训练的“字典”),用于获得更好的表示。该交叉注意的输出是:



最后通过一个正则 MLP 层和平均池化来获得整个序列的嵌入。


为了进一步增强表征学习,在 decoder-only 的 LLM 对比训练过程中去掉了因果注意掩码,从而缓解了单向注意力对模型表示能力的限制。



△图 5: NV-Embed-v2 模型架构


  • 模型训练


引入了一种两阶段的对比指令调优方法。第一阶段利用批量负样本和精选的难负样本,在多种检索数据集上利用指令进行对比训练。在第二阶段,该算法在检索和非检索数据集的组合上执行对比指令调优。由于同一批次内的负样本可能会误导非检索任务,该算法在第二阶段不采用 in-batch negatives 方案。这种设计不仅提高了分类、聚类和语义文本相似度任务的准确性,而且显著提高了检索性能。

2.2.2 BGE-EN-ICL

【主要贡献】


利用 LLM 中的 in-context learning(ICL)能力来增强语义嵌入生成的过程。BGE-EN-ICL 模型使用少量示例来生成高质量的语义嵌入,直接将与任务相关的示例集成到查询端,从而在多种任务上取得了显著的改进。此外,还研究了如何有效地将 LLM 用作嵌入模型,包括各种注意力机制、池化方法等。


该模型采用 Mistral-7B 作为模型骨架,研究结果表明,保留原始框架往往能获得最佳结果。在 MTEB 基准测试上的实验结果目前排名第二。


【算法概述】


  • 上下文学习增强嵌入模型



△图 6: 基于 ICL 的模型体系结构


通过少样本对比训练实现 ICL 增强嵌入模型。考虑嵌入任务中的一个查询-段落对,首先构建一个示例模板如下:



“task definition”表示特定嵌入任务的描述(图 6)。对于一个相关的查询-段落对,修改后的查询构建如下:



  • 表征方法


该方法认为在嵌入微调过程中引入双向注意力与模型的预训练设计不匹配,可能会破坏其上下文学习和生成属性。为了保留特定任务的嵌入表示与生成属性,与大多数现有的嵌入方法一样,该方法保留了单向注意力机制。具体来说,在输入修改后的查询和段落的末尾添加一个 [EOS] 标记,以通过因果注意力机制捕捉语义和上下文学习模式,然后将它们输入到 LLM 中,通过提取最后一层的 [EOS] 向量来获得嵌入。训练过程中采用标准的 InfoNCE 损失函数,同时利用 in-batch negatives 和 hard negatives。


  • 基于上下文学习的指令微调


实验表明,如果在训练过程中一直提供示例,可能会降低模型的零样本推理能力。因此,该方法提出了一种动态训练过程。即在每个训练步骤中,查询会被提供数量可变(0 到 n)的少量样本,这种方法在 ICL 能力和零样本性能之间取得了平衡。

2.2.3 Echo-mistral

【主要贡献】


自回归模型中由于存在因果注意力掩码,会导致 token 嵌入无法包含出现在输入中较靠后的 token 的信息。为了解决这一限制,Echo-mistral 模型中设计了 “Echo embeddings”(如图 7 所示),即使用双向注意:重复两次输入并从第二次出现中提取嵌入。原则上,第二次出现的语境化嵌入可以关注第一次中呈现的整个句子。此外,需要在 LLM 的提示信息中包括如“重写”或“重述”等词,从而尽可能确保第二次真的“编码”了关于第一次的信息。实验表明,Echo 嵌入可以编码靠后 token 的信息,从而最大限度地利用 LLM 进行嵌入。


在 MTEB 排行榜上,Echo 嵌入比传统嵌入提高了 9%以上,在微调后提高了 0.7%左右。与之前没有利用合成微调数据的开源模型相比,Mistral-7B 模型的 Echo 嵌入也有较大提升。



△图 7: Echo 嵌入概念介绍

2.2.4 LLM2Vec

【主要贡献】


与 Echo-mistral 模型的思想类似,语义嵌入任务中解码器模型的因果注意力机制,限制了从整个输入序列中获取并创建双向上下文表示的能力。因此,为了改进 decoder-only 获得的语义嵌入,LLM2Vec 提出了一种简单的无监督方法,可以将任何 decoder-only LLM 转换为强大的文本编码器,如图 8 所示,只需三步即可:1)启用双向注意力机制(bidirectional attention);2)掩码下一个 token 预测(masked next token prediction);3)无监督对比学习(unsupervised contrastive learning)。



△图 8:LLM2Vec 的三个步骤


LLM2Vec 选择 Llama-3 和 Mistral-7B 作为模型骨架,实验结果和广泛的分析表明,能够以参数高效的方式将 LLM 有效地转变为通用文本编码器,而无需额外的调整或利用 GPT-4 合成的数据。


【算法概述】


  • 双向注意力机制


用全 1 矩阵替换 decoder-only LLM 的因果注意掩码,转换为双向 LLM,每个 token 可以访问序列中的其他 token。


  • 掩码下一个 token 预测


通过掩码下一个 token 预测(MNTP)来调整模型,使其更好的利用双向注意力。MNTP 是一种训练目标,它将下一个 token 预测与掩码语言建模相结合。给定一个任意序列作为输入,首先掩蔽输入 token 的一部分,然后训练模型根据前后文来预测这些掩蔽的 token。


  • 无监督对比学习


decoder-only LLM 没有经过明确训练来捕捉整个序列的上下文,该方法采用 SimCSE 的无监督对比学习弥补了这一缺陷。具体来说,给定一个输入句子,让句子两次通过模型,每次使用独立采样的 dropout 掩码,从而为同一个句子生成两种不同的表征。模型被训练为最大化这两种表征之间的相似性,同时最小化它们与批次中其他句子表征之间的相似性。最后对词表征进行池化操作,以获得句子表征。

2.2.5 GRIT

【主要贡献】


Generative Representational Instruction Tuning (GRIT) 模型**,**与 Echo-mistral 和 LLM2Vec 的思想类似,也强调了双向注意力对通用文本嵌入的重要性。然而,生成式表征指令调优(GRIT)方法的关键在于,通过训练 LLM 和指令来统一处理生成和嵌入任务。对于长文本,不再需要单独的检索和生成模型,该模型可以将检索增强生成(RAG)的速度提高 60%以上。模型骨架选用 Mistral-7b 和 Mistral-8x7b。


【算法概述】


GRIT 将表征式指令调优和生成式指令调优统一到了一个模型中。采用一致的数据格式,使用表征和生成式指令数据对预训练的 LLM 进行微调,如图 9 所示。对于表征数据,使用 in-batch negatives 的对比目标来计算损失,同时采用双向注意力机制,随后进行平均池化对序列长度上的最终隐藏状态进行平均。为了计算生成式数据的损失,GRIT 使用语言建模目标,即模型需要预测下一个 token。最后,将目标函数与损失权重(表征式损失权重)和 (生成式损失权重)相加。




△图 9: GRIT 的架构和格式

2.2.6 GTE-Qwen1.5-7B-instruct

【主要贡献】


GTE-Qwen1.5-7B-instruct 基于 GTE 嵌入模型和 Qwen1.5-7B LLM 所构建,借鉴了 Qwen1.5-7B 模型强大的自然语言处理能力。通过先进的嵌入训练技术,该模型融入了多项关键改进:


  • 整合了双向注意力机制,丰富了模型的上下文理解能力;

  • 仅在查询侧应用了指令调优,以提高效率;

  • 在涵盖不同领域和场景的大规模、多语言文本语料库上进行了全面训练。这种训练同时利用了弱监督和监督数据,确保了模型在多种语言和广泛的下游任务中的适用性。


此外,还推出了 GTE-base-en-v1.5 和 GTE-large-en-v1.5 两个最新的英文嵌入模型,在同模型尺寸类别的 MTEB 基准测试上取得了很好的成绩,并且支持长达 8192 的上下文长度。

2.2.7 stella_en_1.5B_v5

【主要贡献】


该模型是基于 GTE-large-en-v1.5 和 GTE-Qwen2-1.5B-instruct 进行训练的。简化了提示的使用,为大多数通用任务提供了两个提示,一个是用于序列到段落(s2p)任务,另一个是用于序列到序列(s2s)任务。


  • 序列到段落(s2p)任务(例如检索任务)的提示:“Instruct: Given a web search query, retrieve relevant passages that answer the query.\n Query: {query}”

  • 序列到序列(s2s)任务(例如语义文本相似性任务)的提示:“Instruct: Retrieve semantically similar text.\n Query: {query}”


该模型最终选用 MRL 框架进行训练,从而具备多个维度设置,包括 512 维、768 维、1024 维、2048 维、4096 维、6144 维以及 8192 维等多个层次。在理论及实践层面,通常观察到的一个趋势是,随着维度的提升,模型的性能呈现出增强的态势。然而在多数应用场景中,1024 维的配置已经展现出了极为可观的性能表现,其在 MTEB 测试中的得分与最高维度的 8192 维模型相比,差距仅有 0.001 分。这表明 1024 维模型在性能与计算资源之间的良好平衡,也为后续模型选择与优化提供了有价值的参考依据。

2.3 方法小结

在本节中,我们详细阐述了基于 LLM 的通用文本嵌入算法模型(特别是在 MTEB 测试中排名前 10 的模型)。多数算法研究表明,通过全面的自回归预训练策略,LLM 能够习得高质量的文本表征,仅需少量微调即可转型为高效的通用文本嵌入模型。具体而言,微软提出的 E5-mistral-7b-instruct 与谷歌 DeepMind 的 Gecko 模型展示了两种创新途径,即通过 LLM 生成合成数据以进一步优化通用文本嵌入性能。同时,Echo-mistral 与 LLM2Vec 的研究则强调,专为 decoder-only LLM 设计双向注意力机制,无需依赖合成数据,同样能实现出色的通用文本嵌入效果。BGE-EN-ICL 利用 LLM 中的 ICL 能力来增强文本嵌入生成的过程。NV-Embed-v2 设计了关注潜在向量的池化嵌入输出,并提出一种两阶段指令调优方法以提高检索和非检索任务的准确性。值得注意的是,本节介绍的所有专注于文本语义嵌入的 LLM 模型均采用了指令调优方法。这主要归因于 LLM 卓越的指令遵循能力,从而可以构建能够灵活应对多样化任务的通用文本嵌入模型的优选。此外,Mistral-7B 模型在 LLM 增强文本嵌入技术中是最流行的基线模型。其中一个关键因素在于,即便未经任何特定训练,为 Mistral-7B 启用双向注意力机制也已展现出了显著成效。LLM2Vec 的作者据此推测,Mistral 模型可能已预先经历了某种形式的双向注意力训练。

03 总结

本文开篇即对文本语义嵌入方法进行了系统性概述,剖析了当前主流算法模型的架构特征及其发展脉络与趋势。鉴于 LLM 的迅速崛起,文章进一步在多维视角下对比了 LLM 文本嵌入技术与传统语义嵌入方法之间的显著差异。传统的文本语义嵌入技术以其高效性、广泛应用性和强大的语义表示能力为众多任务提供了有力支持,在自然语言处理领域占据重要地位。然而,该技术也面临着数据依赖性、静态性以及计算资源消耗等瓶颈问题。相比之下,LLM 通过捕捉文本上下文信息、支持多语言处理及出色的生成能力,为提升文本嵌入质量带来了新视角。随后,核心内容聚焦于 LLM 在生成文本嵌入领域的最新研究进展。当前,研究界对通用文本嵌入模型给予了高度关注,该模型旨在构建一个统一且全面的框架,以灵活应对不同长度的输入文本、多样化的下游任务、广泛的领域覆盖以及多语言处理需求。为实现 LLM 在提升文本嵌入能力上的潜力,研究者们探索了两条主要路径:一是通过合成数据生成策略来增加训练数据多样性和灵活性;二是直接将 LLM 作为核心架构,来优化通用文本嵌入的性能。本文介绍了这两条路径下的代表性模型,这些前沿方法均在多文本嵌入基准测试(MTEB)排行榜上名列前茅,在训练数据的规模上实现了显著提升,同时在数据质量与多样性方面展现了创新性的突破。这些进展不仅为文本语义嵌入技术提供了新的研究视角,也为未来自然语言处理领域的发展奠定了坚实的基础。


尽管 LLM 能生成更精确的文本语义嵌入,但也面临计算资源消耗大、数据隐私与伦理挑战以及解释性不足等难题。尤为关键的是,LLM 高度依赖于提示的质量,然而为各种任务创建精确且全面的提示不仅繁琐且耗时,同时,将提示整合到文本嵌入中会增加输入长度,这对于大型数据集和模型而言,将带来额外的计算开销。随着技术的持续进步,未来应该会出现更高效的训练算法,这将显著加速 LLM 的训练过程,进而推动其在 NLP 领域的广泛应用。同时,文本嵌入与图像、音频等其他模态嵌入的融合将成为趋势,旨在实现多模态自然语言处理任务,拓宽模型的应用范围并提升其性能。此外,为应对日益增长的模型解释性需求,未来 LLM 将朝着更强可解释性方向发展,优化提示生成算法和质量评估,确保决策过程的合理性、准确性和伦理性。随着这些技术的不断成熟,LLM 语义嵌入生成技术将在智能客服、内容创作、教育等众多领域展现更为广阔的应用前景,开启自然语言处理的新篇章。

主要参考文献:

[1] Wang L, Yang N, Huang X, et al. Text embeddings by weakly-supervised contrastive pre-training[J]. arXiv preprint arXiv:2212.03533, 2022.


[2] Xiao S, Liu Z, Zhang P, et al. C-pack: Packed resources for general chinese embeddings[C]//Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2024: 641-649.


[3] Li Z, Zhang X, Zhang Y, et al. Towards general text embeddings with multi-stage contrastive learning[J]. arXiv preprint arXiv:2308.03281, 2023.


[4] Touvron H, Martin L, Stone K, et al. Llama 2: Open foundation and fine-tuned chat models[J]. arXiv preprint arXiv:2307.09288, 2023.


[5] Dubey A, Jauhri A, Pandey A, et al. The llama 3 herd of models[J]. arXiv preprint arXiv:2407.21783, 2024.


[6] Jiang A Q, Sablayrolles A, Mensch A, et al. Mistral 7B[J]. arXiv preprint arXiv:2310.06825, 2023.


[7] Jiang T, Jiao J, Huang S, et al. PromptBERT: Improving BERT Sentence Embeddings with Prompts[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2022.


[8] Zeng J, Yin Y, Jiang Y, et al. Contrastive Learning with Prompt-derived Virtual Semantic Prototypes for Unsupervised Sentence Embedding[C]//Findings of the Association for Computational Linguistics: EMNLP 2022. 2022: 7042-7053.


[9] Cheng Q, Yang X, Sun T, et al. Improving Contrastive Learning of Sentence Embeddings from AI Feedback[C]//Findings of the Association for Computational Linguistics: ACL 2023. 2023: 11122-11138.


[10] Wang L, Yang N, Huang X, et al. Improving Text Embeddings with Large Language Models[J]. arXiv preprint arXiv:2401.00368, 2024.


[11] M. Rui, L. Ye, J. Shafiq Rayhan, X. Caiming, Z. Yingbo, and Y. Semih, “Sfr-embedding-mistral:enhance text retrieval with transfer learning.” Salesforce AI Research Blog, 2024.


[12] Lee J, Dai Z, Ren X, et al. Gecko: Versatile text embeddings distilled from large language models[J]. arXiv preprint arXiv:2403.20327, 2024.


[13] Lee C, Roy R, Xu M, et al. NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models[J]. arXiv preprint arXiv:2405.17428, 2024.


[14] Li C, Qin M H, Xiao S, et al. Making text embedders few-shot learners[J]. arXiv preprint arXiv:2409.15700, 2024.


[15] Springer J M, Kotha S, Fried D, et al. Repetition improves language model embeddings[J]. arXiv preprint arXiv:2402.15449, 2024.


[16] BehnamGhader P, Adlakha V, Mosbach M, et al. Llm2vec: Large language models are secretly powerful text encoders[J]. arXiv preprint arXiv:2404.05961, 2024.


[17] Muennighoff N, Hongjin S U, Wang L, et al. Generative Representational Instruction Tuning[C]//ICLR 2024 Workshop: How Far Are We From AGI.


[18] Li Z, Zhang X, Zhang Y, et al. Towards general text embeddings with multi-stage contrastive learning[J]. arXiv preprint arXiv:2308.03281, 2023.


[19] Dun Zhang. stella_en_1.5B_v5. https://huggingface.co/dunzhang/stella_en_1.5B_v5, 2023.


----------END----------


推荐阅读


持续推进“人工智能+”行动,百度智能云+DeepSeek为何成为国有企业首选?


GPU 云服务器的软件系统设计和实践


基于Flink的配置化实时反作弊系统


百度智能云xDeepSeek,最具性价比的DeepSeek一体机合集来了!

用户头像

百度Geek说

关注

百度官方技术账号 2021-01-22 加入

关注我们,带你了解更多百度技术干货。

评论

发布
暂无评论
LLM增强语义嵌入的模型算法综述_自然语言处理_百度Geek说_InfoQ写作社区