写点什么

【ACL2024】基于长尾检索知识增强的大语言模型

  • 2024-08-19
    浙江
  • 本文字数:2674 字

    阅读完需:约 9 分钟

近日,阿里云人工智能平台 PAI 与阿里集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议 ACL2024 上发表论文《On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models》,论文主题为长尾知识检索增强的大语言模型。通过将问题识别为普通可回答和长尾两种性质,让大模型针对性的对长尾问题进行检索文档增强。对于普通可回答的用户提问可以直接通过大模型回答,而不需要进行文档检索增强,从而能增强大模型处理不同类型用户提问的效率。

背景

尽管大型语言模型展现了卓越的性能,在应对诸如产生幻象、依赖陈旧信息及进行不透明且难以追溯的推理过程等难题时仍面临挑战。作为应对这些局限性的新兴策略,检索增强生成(RAG)技术通过融入外部知识数据库,显著增强了模型在处理知识要求高的任务时的精确度与可靠性,确保了知识的及时更新与特定领域信息的融合。RAG 体系本质上结合了大型预训练语言模型的内在知识与大规模动态外部数据资源,其核心包括三个步骤:Retrieval、Augmentation 和 Generation。这一机制利用外部知识库检索最新信息,以此“增强”模型能力,进而生成更为精准的答案,通过在生成内容前查询并整合外部来源信息以构造更加全面的输入提示,极大提升了生成结果的准确度与关联性。然而,当前 RAG 方法只专注于通过不加区别地使用检索到的信息增强查询来提高 LLM 的响应质量,而很少关注 LLM 真正需要什么类型的知识才能更准确地回答原始查询。



大模型查询中不同知识类型对提升性能和效率的影响为了进一步解决 RAG 在 LLM 回答时遇到的回答效率和检索知识源的问题,提出对问题查询类型进行识别算法来提升 LLM 推理的效率是必要的。我们将大模型提问所需知识进行了分类,包含了长尾知识,普通知识和两者都有的知识。将该查询输入到大模型中进行区分,发现对于大模型来说,其实不需要将所有对应的知识都召回,只需要对已有的长尾 Query 部分进行知识召回增强大模型理解能力即可,大模型的性能和处理查询的效率也会快很多。

算法概述

长尾检测指标 ECE

之前传统的工作依赖文本频率来判断实例是否长尾。因此,低频文本往往被归类为长尾类。对于 LLM 来说,计算以前未知用户查询的文本频率难度较大。预期校准误差(ECE)为测量“长尾”提供了新的视角。ECE 测量模型的估计概率与真实(观测)概率的匹配程度。在 ECE 的计算中,将每个样例的置信度分配到一个特定的区间内,由模型的预测概率得到。准确度由预测标签与实际标签真值的比较确定。每个样本的置信度和准确度之间的绝对差值表示校准度。整个数据集的期望校准度表明了模型的可靠性。形式上,ECE 可表述为:



其中 i 表示第 i 个 bin,N 为数据集的样例总数,acc(b_i) 和 conf(b_i)表示 bin 的准确度和置信度,n{b_i}为 bin 的实例数,B 为区间[0,1]内的 bin 数。在我们的模型中,由于 ECE 是计算机视觉领域针对长尾判断提出的,我们将 ECE 扩展到自然语言处理领域,特别是 LLM 文本生成场景。

基于度量的长尾检测

我们用 MENTOR 和平均预测概率对传统的 ECE 公式进行了转换:


  • ECE 的准确性是衡量预测与标准答案之间的一致性。在生成场景中,我们使用 METEOR 来衡量预测候选和标准答案之间的一致性和相关性。

  • ECE 的置信度是模型本身产生的预测概率。同样,我们使用 LLMs 输出的平均 token 概率。


此外,为了增强长尾检测的度量能力,我们进一步集成了以下两个因素,有助于我们进一步分离常见 sample 和长尾 sample 之间的关系:


  • 平均词频,因为词频是长尾文本的基本指标。

  • 利用总数据集的平均梯度和特定 sample 梯度之间的点积来评估差异。该操作是因为长尾实例的梯度与整个数据集的平均梯度相差很大,反之亦然。


从上述算法分析,我们得出 GECE 指标如下:



其中 pred 和 ref 分别表示生成的文本和引用的基本事实。M(pred,ref)是 METEOR 得分,p(t_i)表示由 LLM 产生的第 i 个 token 的概率,n 是 token 序列长度。 对于分母部分,α是平均词频。我们可以看到,长尾实例的α值较小,因此其倒数将较大。较大的 GECE 值意味着更高的长尾识别准确度。例如,我们将 GECE 应用于 NQ 数据集“谁被评为 2014 年度非洲足球先生”的查询,值为 34.6。而对于长尾、更专业的 NQ 查询“谁在歌剧魅影中扮演过拉乌尔”,GECE 值为 112.7。

RAG Pipeline 扩展

作为对普通 RAG pipeline 的扩展,我们只从数据源检索与长尾查询相关的文档,而不考虑通用 sample。检索过程由密集检索器实现,以检索相关的 WikiPedia 文档。对于长尾实例,我们将与调用的相关文档连接的查询输入 LLMs 以获得答案。对于通用 sample,我们只将查询本身输入到 LLMs。

算法评测

为了更好的评估基于该长尾数据识别增强的 RAG 方法,我们选取了多个知识覆盖场景的公开数据集进行评测,模型效果如下图所示,同时,我们对 GECE 只针对长尾实体进行识别进行了充分的时间效率评估,效果如下。




我们发现在相关 baseline 算法基础上,加入 GECE 扩展模块不仅仅提高了在各个知识密集型数据集上的效果,同时由于过滤掉一些涉及通用知识的 Query,模型执行数据的速度也随之提高。

参考文献

  • Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, and Hannaneh Hajishirzi. 2023. Self-rag: Learning to retrieve, generate, and critique through self-reflection. CoRR, abs/2310.11511

  • Satanjeev Banerjee and Alon Lavie. 2005. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments. In ACL, pages 65–72.

  • Zhangyin Feng, Xiaocheng Feng, Dezhi Zhao, Maojin Yang, and Bing Qin. 2023. Retrieval-generation synergy augmented large language models. CoRR, abs/2310.05149.

  • Gautier Izacard, Patrick S. H. Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. 2023. Atlas: Few-shot learning with retrieval augmented language models. J. Mach. Learn. Res., pages 251:1–251:43.

  • Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, and Colin Raffel. 2023. Large language models struggle to learn long-tail knowledge. In ICML, pages 15696–15707.

论文信息

论文名字:On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models

论文作者:李东阳,严俊冰,张涛林,汪诚愚,何晓丰,黄龙涛,薛晖,黄俊

论文 pdf 链接:https://arxiv.org/pdf/2406.16367


阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
【ACL2024】基于长尾检索知识增强的大语言模型_人工智能_阿里云大数据AI技术_InfoQ写作社区