三分之一的生成式 AI 项目将被放弃？从零开始看 RAG 如何变现

2024-11-06
上海
本文字数：3310 字
阅读完需：约 11 分钟

1 越来越多企业投入生成式 AI 部署

最近，彭博行业研究发布的一份人工智能报告显示，从 2023 年 12 月到 2024 年 7 月，企业部署生成式 AI 协同程序的速度翻了一倍。超过一半的受访企业表示，生成式 AI 的主要应用领域是聊天机器人/智能助手，如客服应用。

该报告在 7 月调查了 50 家美国公司的 CIO，发现 66%的受访者正在部署生成式 AI 协同程序，而在 2023 年 12 月的调查中，这一比例仅为 32%。大部分生成式 AI 系统依托于大型语言模型，越来越多的企业正在参与这些基础模型的训练。根据调查，正在训练生成式 AI 基础模型的企业从去年的 26%增加到了 40%，同时一半的受访者表示，他们正在评估如何进行模型的训练。

彭博：66%的受访企业正在部署生成式 AI

报告还指出，生成式 AI 的广泛应用将推动企业内部 AI 推理工作的激增。60%的受访者计划加大在微软 Azure 上的投资，主要用于 AI 推理工作，而在 2023 年 12 月，这一比例仅为 41%。

此外，咨询巨头德勤（Deloitte）的一份报告显示，大多数公司都在努力将其生成式人工智能（Gen AI）项目从初始阶段推向生产阶段。接受调查的三家企业中有两家表示，他们正在增加对生成式人工智能的投资，因为到目前为止，他们已经看到了强大的初期价值。

然而，德勤的一份报告显示，大多数公司仍然面临将生成式 AI 项目从实验阶段推向生产阶段的困难。三分之二的受访公司表示，尽管已经看到了初步成效，但仍然需要加大投资。不仅如此，德勤的报告也指出，70%的企业将 30%或更少的生成式 AI 实验投入到了实际生产中，显示出从概念验证到生产的过程充满挑战。

德勤：70%的企业将 30%或更少的生成式 AI 投入到了生产

2 三分之一的生成式 AI 项目将被放弃

尽管一些企业已经通过生成式 AI 看到了收入增长、成本降低和生产力提升的好处，但总体形势并不如预期的乐观。

分析机构 Gartner 发布的最新报告指出，许多企业在找到生成式 AI 项目的真正价值上举步维艰。尽管经历了去年的热潮，企业仍然渴望看到投资回报，但实际上要证明生成式 AI 的价值并非易事。随着项目规模的扩大，开发和部署生成式 AI 模型的成本也在不断攀升。Gartner 预计，最终有三分之一的生成式 AI 项目将被放弃。

项目高昂的部署成本是企业面临的主要挑战之一。根据 Gartner 的分析，面向低端规模企业的生成式 AI API 初期成本在 10 万到 20 万美元之间，此外还有每位用户每年 550 美元的维护费用。对于高端规模，定制化模型的微调或从零开始部署的初期投资在 500 万到 2000 万美元之间，每位用户的年费用在 8000 到 21000 美元不等。

Gartner：生成式 AI 的部署成本

除了成本，回报难以量化也是一大挑战。相较于即时的投资回报，生成式 AI 项目更需要企业对未来的间接财务收益保持较高的容忍度。而根据以往经验，许多企业的 CFO 并不愿意为未来的间接收益进行大规模投资。此外，风险控制不足和数据质量不佳也是导致项目失败的原因。

德勤：37%的受访者认为他们的公司在战略上准备充分

不仅如此，德勤报告还指出，在受访者对企业各项能力的评分中，只有 37%认为他们的公司在战略上准备充分，风险与治理以及人才储备方面也仅有不到五分之一的受访者表示准备到位。关于 AI 收益，Ipsos 的调查显示，仅 37%的员工认为人工智能将改善他们的工作，而 52%的员工则对人工智能产品和服务表示担忧。

3 RAG 减少企业对生成式 AI 的焦虑

在应对生成式 AI 的管控和安全风险方面，企业可以采取限制访问特定生成式 AI 工具、制定防止员工将公司数据输入公共模型的指南、以及在私有云中构建隔离环境防止数据泄露等措施。然而，面对生成式 AI 收益的不确定性和高昂成本，提升 AI 产品的质量并增强企业用户的信任感才是解决之道。

RAG（检索增强生成，Retrieval-Augmented Generation）通过将大型语言模型与外部权威数据库相结合，优化其生成输出。

在降低成本方面，由于聊天机器人开发通常从基础模型开始研发，然而针对组织或领域特定信息重新训练基础模型的计算和财务成本很高，RAG 避免了从零开始重新训练基础模型的高昂费用，而是将新数据直接引入现有的大型语言模型，极大提高了效率。

在提升用户信任度方面，RAG 能够确保生成模型实时访问最新信息，即便原始训练数据已经过时或不完全相关。通过连接实时更新的企业知识库，RAG 可以为用户提供最新的合同、统计数据或工单，确保信息的时效性和相关性。此外，RAG 还具备来源归属功能，生成的输出会附有来源引用，用户不仅可以验证信息的真实性，还能够进一步查找相关文档，这显著增强了用户对生成式 AI 系统的信任感和信心。

4 RAG 如何做到？

RAG 从提出到投入生产的时间已经不短了，针对 RAG 的技术突破也在不断更，但依然有不少值得引入 RAG 的企业，尤其是数据密集型的传统企业，没有意识到基于 RAG 的生成式 AI 所蕴含的巨大收益。作为 RAG 系列文的第一篇，本文将对 RAG 技术做一个概览，从工作原理出发来看 RAG 如何做到降本与增效。在之后的系列文中，我们将逐渐步入技术层面，了解最新的技术增强以及解决方案。

RAG 通过从外部来源获取信息，提升了生成式人工智能模型的准确性和可靠性。它结合了两种方法的优势：检索和生成。检索负责从大型数据集（即企业知识库）中找到相关信息，而生成则基于检索到的信息形成回答。与仅仅查询通用信息不同，RAG 能够在信息检索或语义搜索等任务中，融入行业领域或特定上下文的内容，从而提供更精准的结果。下图清晰地显现了 RAG 的工作原理：

RAG 通过一系列相互关联的组件运行，共同提高搜索结果：

Ducument encoder：将文档转换为向量，即用数字来编码语义的上下文信息和数据元之间的关系，以便存储。
向量数据库：用来存储已经被向量化的文档切片，以此实现高效的相似性搜索。
Query encoder：与 document encoder 使用同样的向量化模型，将用户的查询指令转换为向量。
向量化模型：将文档和查询指令转化为向量的核心组件。这些向量化后的文档切片包含了语义关系和上下文含义，使得机器可以理解和比较上下文中的字词含义。举例来说，“人工智能”和“机器学习”的向量编码会比较相近，表示它们有着接近的语义相似度。向量化模型可以被看成是一个大语言模型的一部分，一般的大模型在处理文字的过程中会包含向量化过程，但它们同时可以可以将向量做进一步的处理并且生产回复，而向量化模型的功能只有向量化。与通用大模型相比，向量化模型需要更少的计算资源，这也是为什么 RAG 在解决成本问题上有着卓越的表现。
检索器：使用向量化后查询指令在向量数据库中检索到最相关的文档切片。
生成器：根据检索到的文档片段生成连贯且与上下文相关的回复。

其中，正是因为向量化模型支持文档和查询指令 encoder 将信息转化为数字格式，增强了系统的检索能力，以确保 RAG 系统能检索到最相关的文档，这对于大模型为用户查询提供准确而有用的回复至关重要。

尽管 RAG 系统加强了对信息的检索，它同样面临着一些挑战，这些挑战来自于企业相关的垂类环境。由通用的数据训练出的模型缺乏对专业术语和上下文的理解，这可能会导致检索结果缺乏准确性和相关度。

这项挑战指出了提升 RAG 性能的一大方向——提升向量化模型的性能。

让一个向量化模型适用于企业环境的方法有很多，比如从头开始训练一个新的向量化模型，或扩展现有向量化模型的预训练。

从头开始训练意味着专门为企业建立向量化模型，这需要大量的标注数据和计算资源，这可能在成本上不具有优势。而通过将特定领域的数据纳入现有模型（如 BERT，一种语言模型，通过使用周围的文本建立上下文语境，帮助计算机理解文本中模棱两可语言的含义），以此扩展预训练也需要大量数据资源，对于数据集有限的企业来说可能并不可行，但较为适用于数据密集型企业。

对于一般的企业环境来说，对向量化模型进行微调可能是最实用、最有效的解决方案。微调包括使用预先训练好的向量化模型，并根据企业特定数据对其进行调整。这种方法利用了迁移学习，将更广泛数据集中的知识调整到更小、特定领域的数据集中。微调可实现高效定制，而无需大量资源。它能确保嵌入模型捕捉到企业专业语言和上下文语言的细微差别，提高信息检索任务的准确性和相关性。

微调过程如下图所示：