写点什么

“ChatGPT 们”的淘金时代

作者:OneFlow
  • 2023-03-31
    中国香港
  • 本文字数:14303 字

    阅读完需:约 47 分钟

“ChatGPT们”的淘金时代

作者|Pietro Casella、Patrik Liu Tran

翻译|贾川、徐佳渝、杨婷


语言(即读写能力)是人类最重要的发明,也是人类与其它物种的最大区别。语言使我们掌握了抽象推理,发展出了复杂思维,学会了与他人沟通交流。可以说,没有语言就不会有现代文明。


因此,未来几年大型语言模型(LLM)将极大地影响生成式 AI 的发展,ChatGPT 的迅速普及就是很好的例证。此外,LLM 还在多种场景得到应用,比如内容创建、代码生成、药物开发、翻译、搜索以及工作场所实用程序(例如会议转录和摘要)。

 

LLM 应用实例

 

总之,生成式 AI 的最新进展标志着 AI 已然迈进新时代。AI 如今不再只是研究课题,而是成为了帮助人们解决实际问题的实用工具,在各行各业发光发热。因此,企业必须要重视 AI 的影响力。


面对 AI 的发展,企业要立即行动起来,维持自身竞争力。长期来看,未能与 AI 融合的公司将在这场竞争浪潮中日益落后,并逐渐消亡。对于企业来说,最关键的是要把控好 AI 的优势和成本,采取必要措施将 AI 纳入发展规划。未来几年将会是商业发展的黄金时期,新兴企业已如雨后春笋般出现。

 

本文主要关注 LLM,包括 LLM 和模型相关技术概述,以及它们在实践中的应用。希望本文可以帮助从业者了解如何在业务中应用 LLM,使行业潜在投资者全面了解这一领域,作出更好的投资决定。虽然我们提供的框架(例如各类 AI 公司的分类)适用于所有生成式 AI,但这里还是以 LLM 示例为主。


(本文经授权后由 OneFlow 编译,译文转载请联系 OneFlow 获得授权。原文:https://aigeneration.substack.com/p/ais-next-frontier-building-and-investing

1、从 Transformer 到 ChatGPT


AI 领域常有开创性论文发表,这些论文影响着行业的未来发展方向。LLM 领域中,“Attention Is All You Need”就是这样一篇论文。


这篇文章由谷歌团队于 2017 年发表,在文中,他们提出了一种名为 Transformer 架构,简单来说,与当时的 SOTA 替代方案相比,Transformer 架构具有高度并行性和计算效率,同时具有超高性能。


这意味着,采用 Transformer 架构的模型训练成本更低、速度更快,生成的模型性能更好。在不影响性能的情况下,这种低成本、高效的组合十分重要,它能够让我们利用更多的数据,训练更大的模型。

 

受 Transformer 启发,在 Transformer 架构的基础上,各类知名 LLM 层出不穷,例如:生成式预训练 Transformer(GPT)模型、BERT 以及 XLNet。

 

有关 GPT(1.0)和 BERT 的论文最早可以追溯到 2018 年。次年(即 2019 年)发表了第一篇关于 XLNet 的论文。尽管如此,直到 2022 年底,OpenAI 推出 ChatGPT 后,LLM 才进入大众视野,开始风靡于研究界之外。

 

ChatGPT 推出后,不到一周的时间里,就收获了超百万用户。这种普及速度十分罕见,几乎超越了以前所有的科技产品。台上十分钟,台下十年功,所有的突破性成就必然来自于夜以继日的努力。基于 GPT-3.5 的 ChatGPT 是 LLM 领域多年以来的最重要的成就。实际上,ChatGPT 的基础模型并不是最好的 LLM,但却是目前最受欢迎的模型。

 

时间会证明一切。在我们看来,ChatGPT 最重要的是作为 PoC(为观点提供证据),向世界展示 LLM 的能力。尽管 ChatGPT 发布初期十分火爆,但我们不确定它能否成为主流 LLM 之一,在实际用例中获得广泛应用。原因如下:


2、基础模型 vs 专用模型

 


基础大型语言模型是在大量公开文本、数据(例如,维基百科、新闻文章、Twitter、在线论坛等)上进行训练的。模型训练数据话题广泛,内容繁杂,并不针对特定领域和任务,这类模型包括:GPT-3,Jurassic-1,Gopher 和 MT-NLG。


目前,虽然建立在基础 AI 模型(如 ChatGPT)之上的应用程序非常流行,但我们预计,专用于特定领域或任务的模型才能发挥出 LLM 的真正价值。因为与相同模型大小的基础模型相比,在专业领域里,专用模型的表现通常来说更好。这意味着,我们需要用更大的基础模型(这也意味着更高的推理成本和更大的内存占用)才有可能在专业领域实现与专业模型相同的性能。

 

专用模型比基础模型表现更好的原因之一与模型对齐有关,即 LLM 的输出与模型用户的目标和兴趣相对应的程度。更好的模型对齐意味着答案是正确且相关的,也就是说正确回答了模型请求的问题。由于专用模型仅关注特定领域或任务,因此与基础模型相比,专用领域模型的对齐程度通常更高。

 

我们有多种方式实现模型的专用化,其中之一就是利用专用领域或任务的数据来训练基础模型。比如,一个基础模型可以很好地回答银行相关的一般问题,然而,如果你想要打造一个专门针对银行的聊天机器人,那么这个通用模型的性能水平就不太够用了。这时,我们就可以利用银行业相关的数据集来训练这个模型,实现模型专业化。反过来,假如有一家银行想要在客服服务中应用聊天机器人,从而实现简单任务的自动化,此时银行可能会在实际客户服务对话的专门数据上进一步训练这个专业模型。像这样训练以后,LLM 就能学会特定银行按照一定政策的行事方式,毕竟不同银行可能有不同的政策和指导方针。

 

因为专用模型针对的是特定任务,不涉及其它不相关的领域和任务,所以说,不需要用到很大的基础模型来进行进一步训练。使用更小的模型意味着更低的推理成本和更小的内存占用,也就是说,比最大的可用模型小得多的基础模型可能会成为专用基础模型的首选。

3、LLM 如何改进?

 

为了更好地了解 LLM 的功能和局限性,我们首先要了解该如何改进它们。LLM 的改进有三个主要驱动因素,分别是:体系结构改进、更大的模型、更多的训练数据。接下来我们将对这三方面进行逐一介绍。


 

架构改进是关键,但很难取得突破

 

架构改进(例如 2017 年的 Transformers 架构)可以在不增加模型复杂度和训练数据量的情况下提升 LLM 性能。目前正在构建的多数 SOTA 性能 LLM 仍然是基于 Transformer 的网络架构(与 2017 年推出的架构非常相似)。尽管它具有已知的局限性(例如自注意导致的二次方时间和内存复杂性),但目前还没有广受认可的架构更新。话虽如此,人们一直在不断探索,试图改进架构,并为此推出了所谓的高效 Transformers 来消除已知局限。

 

对现有 SOTA 架构的渐进式改进(如高效 Transformers)将逐年突破模型性能界限。此外,每隔一段时间,行业就会迎来突破性的架构改进(例如原始 Transformer 架构),这些改进代表着模型性能的跨越式提升。

 

与增加模型大小和训练数据量相比,改进模型架构较为困难。模型架构改进遵循传统研发模式,需要大胆创新,且无法保证结果,因此,LLM 的此类性能改进最为棘手,同时也是架构渐进式提升与突破向社区发布和分享的标准。除了率先使用先进模型,这意味着这类提升不能作为长期优势去与其它构建 LLM 的公司或对手竞争。例如,OpenAI 的 LLM 是以 Google Brain 2017 年发明并公开的 Transformer 为基础。


LLM 改进经典做法:扩大模型规模

 

目前,为了提高 LLM 性能,人们将大部分精力放在了增加模型大小上面。2020 年,OpenAI 发表了一篇论文,提出了在增加模型尺寸与提高模型性能之间的扩展定律,论文的结论是:人们应该将大部分预算用于扩大模型规模。这篇论文直接推动了增大模型规模的浪潮。下图出自论文 Machine Learning Model Sizes and the Parameter Gap,图中显示近年来语言模型大小呈显著增长趋势。

 

 

2019 年之前,大多数 LLM 的参数都在数亿级。2019 年,OpenAI 发布了有 15 亿参数的 GPT-2。2020 年,谷歌和微软发布了 T5 和 Turing NLG,分别包含 110 亿和 170 亿个参数。2020 年年中,OpenAI 发布了 1750 亿个参数的 GPT-3。从那时起,大型模型开始接连出现,例如 AI21 的 Jurassic-1(1780 亿个参数)、DeepMind 的 Gopher(2800 亿个参数)、Nvidia 和微软的 MT-NLG(5300 亿个参数)以及北京智源研究院的 WuDao 2.0(1.75 万亿个参数)。

 

LLM 之所以可以通过增加模型规模来提升性能,是因为这样做能提升模型对复杂现实的建模能力。由于 Transformer 架构速度快、性价比高,一直是训练大型模型的首选。然而,在同等条件下,更大的模型也意味着更高的训练和推理成本,同时也意味着更大的内存占用,也就是说,模型需要部署在更大的硬件上。因此,在预算和内存有限的情况下,盲目扩大模型规模并不是提升模型性能的最佳选择。


大规模训练数据集的竞赛

 

一直以来,人们都低估了训练数据在模型性能提升方面的重要性,这种重要性包括质量和数量两方面。2022 年 DeepMind 团队发表了一篇论文(https://arxiv.org/pdf/2203.15556.pdf),文中对比了模型大小和训练数据,最终结论是:多数语言模型明显训练不足。也就是说,在不增加模型大小的情况下,在更大的数据集上训练模型将受益匪浅。

 

文中,DeepMind 团队训练了一个相对较小的 LLM,名为 Chinchilla,这个模型只有 700 亿个参数,但却有 1.4 万亿个训练 token。经过训练,Chinchilla 模型的性能超越了诸如 GPT3、Gopher、Jurassic-1 和 MT-NLG 等更大的语言模型,这些语言模型的参数都在 1750 亿-5300 亿之间,但训练 token 却在 2700 亿-3000 亿之间(请参见下表)。这表明为了提升模型性能,人们必将打响训练数据集之战。

 

 

此外,我们还可以通过强化学习来利用更多数据,提升 LLM 的性能。2017 年,OpenAI发布了一类新的强化学习算法:近端策略优化(PPO,https://arxiv.org/pdf/1707.06347.pdf),是目前行业里的 SOTA。在实践中,近端策略优化操作更为简单,并且它的表现能够达到甚至超越其它替代方法。

 

ChatGPT 背后的 LLM 已经利用人类反馈的强化学习(RLHF)实现了微调,步骤如下:第一步:通过监督学习,用人类对不同提示的“理想”回答数据微调 LLM。第二步:LLM 为每个提示提供多个答案,然后由人工对这些答案进行排名(该排名用于训练奖励模型)。第三步:用近端策略优化模型来优化 LLM 的奖励模型。强化学习可以引导模型提供更加正确、公正、有益的答案。总之,现在的 LLM 更加强大。

 

事实上,这也是 OpenAI 将 ChatGPT 发布为 “免费试用”的主要原因之一(其实你已经通过提供数据的方式付费了)。ChatGPT 生成的每个回答旁边都有一个“赞(thumbs up)”和一个“踩(thumbs down)”按钮,用户可以通过这两个按钮来评价模型生成的回答。无论是“赞”还是“踩”都会出现一个对话框,用户可以将理想答案输入框中,而这些答案正是强化学习第一步需要的数据。


ChatGPT 的反馈循环按钮

 

理论上讲,只要有充足的资金和相关人才,任何公司都能打造出优质 LLM。但我们预计,科技巨头最有可能打造出性能最佳的 LLM因为这些公司可以获得和管理训练数据,特别是强化学习部分,以进一步改进和微调他们的模型。公司之间的训练数据有很大差异。谷歌、微软、Meta、亚马逊、阿里巴巴和腾讯等公司为数十亿用户提供了不同的服务,所以它们可以找到创新性的方式去收集相关数据,用以训练 LLM。

 

相比增加模型规模,用更多训练数据来提升模型性能不会增加推理成本,模型运行时也不会导致更大的内存占用。但这也面临着其它挑战,其中最大的挑战是,我们难以确保这些拥有数十亿、数万亿训练 token 的数据集良性运转,从而导致模型产生错误、偏见、有害的内容。强化学习也许在一定程度上可以抵消这些不良内容,但难以照顾到各个领域的 LLM。

4、不同类型的 AI 公司


我们看到人工智能对这些公司的产品和差异化的重要性,以及他们主要运营的人工智能技术堆栈的哪一部分,可能会有很大差异。

 

在最近的生成式 AI 浪潮下,许多公司再次将自己标榜为“AI 公司”。AI 对这些公司的产品和差异化的重要性以及他们所研发的 AI 技术堆栈可能有着本质上的区别。基于此,我们将这些公司分为以下五类:AI 内核(AI Core)、AI 赋能(AI Enabler)、AI 原生(AI Native)、AI 特色(AI Featured)和 AI 驱动(AI Powered)

 

人工智能技术堆栈


AI 赋能公司主要在 AI 技术堆栈的底层,为构建 AI 模型提供基础设施、工具和数据支持。AI 内核公司的主要业务是构建和销售 AI 模型,在构建模型的过程中,AI 赋能公司为其提供相应支持,以完成数据获取、模型训练、模型工程和模型测试等任务。


AI 原生和 AI 特色公司处于应用层,它们使用的都是 AI 内核公司提供的 AI 模型。不过也有一定区别,AI 原生公司的产品或服务的内核价值来自于 AI 模型的应用,而 AI 特色公司则是利用 AI 模型为已有产品添加新的功能。AI 驱动公司则处于 AI 技术堆栈的顶层,也就是最终用户所在的层级。


1. AI 赋能公司:为 AI 模型构建提供所需基础设施、工具及数据


AI 赋能公司是一类专为构建 AI 模型提供必要技术的公司。由于生成式 AI 模型具有巨大的参数集,因此确保可靠的基础设施以支持处理工作负载至关重要。此外,还需要提供 MLOps 工具,以协助模型构建。在 AI 赋能公司中,提供训练数据、获取数据相关工具的公司最为引人注目,因为数据是影响模型性能和差异化的重要因素。


从基础设施开始

 

在 LLM 领域,大多数 LLM 在模型的训练和部署方面高度依赖云服务提供商。三大主要云服务提供商(亚马逊 AWS、微软 Azure 和谷歌 Cloud)都有一些在该领域中具有重要地位的客户。例如,OpenAI 正在使用微软 Azure 平台,DeepMind 使用的是谷歌 Cloud 平台,Stability AI 则选择了亚马逊 AWS 作为其主要的云服务提供商。

 

随着 LLM 的兴起,人们对云服务提供商所提供的存储和计算服务需求不断增加。如果将 LLM 的兴起看作是一场持续的淘金热,那么云计算和存储服务提供商就像是这片土地的所有者,人们则是涌向这片土地的淘金者。为了成为计算和存储方面的首选提供商,云服务提供商会尽可能地为 LLM 的开发者提供最佳服务,这是一个明智的决策。

 

云服务提供商将成为重要的分销渠道,例如它们会通过自己的云市场来销售产品和服务,以方便以上云客户使用这些模型。最近,微软的首席执行官 Satya Nadella 透露,他们将通过 Azure OpenAI 服务向用户提供 ChatGPT 模型。我们相信,未来会有更多这样的例子出现。


 

要想成为有竞争力的云提供商,需要关注多个因素,包括模型训练和运行推理的速度及成本。例如,Cerebras Systems专注于为深度学习应用程序提供计算服务,旨在降低深度学习应用程序(包括大型语言模型)的训练和推理成本,并将计算速度提高到普通替代方案的十倍。


由于模型的大小、架构以及训练数据量的不同,训练成本可能会高达数千万美元,训练时间会长达数百天。因此,节约成本和时间仍将是未来深度学习领域的重要因素。有趣的是,我们看到一些区块链公司 (例如加拿大的 Hut 8 Mining)正在将其硬件重新用于 AI 模型训练和推理,这一转变有望加速新参与者进入该领域。

 

便利性和易用性也是云服务提供商需要考虑的另一重要因素。云服务提供商可以通过优化底层硬件来训练一般的深度学习模型及特殊的深度学习模型(如大型语言模型),无需用户进行大量的手动调整。

 

此外,训练大型语言模型需要大规模的计算集群,而租用这些计算集群通常需要签订多年的合同,这种方式对于消费者来说缺乏灵活性。因此,提供更加灵活的短期租赁方式对消费者来说更具吸引力。


用于模型工程、开发和测试的工具

 

MLOps(机器学习运维)是一种将机器学习模型整合到软件开发周期中的实践和流程,旨在让机器学习模型在生产环境中保持高性能和高可靠性。对于 LLM 来说,这涉及到模型工程、开发和测试。

 

在模型工程和开发阶段,机器学习研究人员和工程师通常使用像 TensorFlow、PyTorch 这样的库和框架。在模型开发完成后,需要对模型进行测试,然后再部署模型。

 

LLM 模型与其他机器学习模型一样,都能对训练数据中的信息进行编码,并在推理阶段对信息进行解码。然而,由于其训练数据主要是人类的书面对话和文本,因此可能存在偏见。大家可能都还记得,微软推出的一款聊天机器人 Tay,该机器人是通过 Twitter 数据进行训练的。然而,几个小时后,该机器人就开始发表带有种族主义色彩的言论。

 

此外,互联网中存在着大量的错误信息,我们从中收集了大量 LLM 模型所需的训练数据。如果不对训练数据进行质量验证,模型就可能受到错误信息和人类偏见的影响。

 

目前,还没有一个可扩展、自动化的企业生态系统,能够监控和验证文本形式的非结构化数据的质量和有效性。随着 LLM 服务越来越受欢迎,为了满足人们对此类服务的需求,我们当然需要采取一些自动化的方法来执行这些任务。因此,我们预计在未来这一领域会有很多的可能性。甚至可能会出现专注于评估文本数据质量及有效性的 LLM 模型。

 

在模型测试方面,有许多人们广泛接受的基准可用于评估 LLM 的性能。其中一个例子是斯坦福大学的一组研究人员提供的全面评估语言模型(HELM)。HELM 是一种全面评估 LLM 性能的基准,它涵盖了多个方面的指标,如准确性、校准性、鲁棒性、公平性、偏见、有害性和效率。尽管如此,HELM 仍不能完全反映出实际语言模型性能的全貌。据多次报道,在基准测试上表现良好的模型,在实际测试中可能会表现不佳。

 

OpenAI 产品负责人 Frasher Kelton 在一篇博客文章中提供了一个很好的例子,该例子表明当模型在某个任务上表现更好时,可能在另一个任务上表现更差。此外,在实际应用中,除了准确性、公平性、有害性等指标,推理成本和延迟也是非常重要的度量标准,需要与其他指标一起进行权衡和综合考虑。


鉴于此,Kelton 提出了一种更理想的测试方法,即需要通过不断地试错和探索来判断模型是否适合推向生产环境。然而,这种方法并不理想。因此,我们可能会看到在这个领域中会出现几家大公司,来提供更完善和可信的解决方案。

 

数据采集

 

数据采集的第一步通常是获取大量的文本数据集。最初的数据集通常来自于免费开放数据源,这些数据可以在模型中心(如 Hugging Face)中找到。它们可能包含成千上万个数据集,每个数据集包含数百万甚至数十亿个单词。如果用户条款允许,你还可以通过爬取网站和应用程序来获取文本数据。一些潜在的有趣数据来源有维基百科、博客文章、论坛、Linkedin 和 Twitter。


除了免费开放数据源外,大多数 LLM 构建者仍然会收集额外的数据。此处,我们强调了三种主要的数据采集策略:数据标注、合成数据生成和通过反馈循环进行数据收集。

 

以数据标注公司 Scale AI 和 Labelbox 为例,它们提供了高效的数据标注工具。此外,推荐一个免费的开源替代品 Labelstudio。我们预测,未来标注技术提供商将整合 LLM,为用户提供标签。这样,用户只需要核对和批准这些标签,无需从头开始实际标注(actual labeling)。最耗时的标注任务将被自动完成,从而提高了标注效率,使得标注数据的数量呈指数级增长。


使用 Labelstudio 可以轻松标记新数据

 

合成数据指的是生成人工数据的过程。其中,最常见的用例是当你因隐私保护而不能使用真实的原始数据时,你要么放弃数据,要么想出一些巧妙的方法对数据进行匿名化,同时仍然保留感兴趣的信息。如果你选择后者,就需要使用合成数据。Mostly 和 Hazy 是该领域的两个例子。

 

如上文“更多训练数据竞赛”一节所述,基于人类反馈的强化学习可以显著提升模型性能。然而,要执行强化学习,需要一定类型的训练数据。例如,在第一步中,需要为不同的 prompt 提供所需的答案。这些数据与所使用的模型无关,可以由第三方数据供应商提供。


接下来,人类需要对基于某一 prompt 生成的不同答案进行排序,这一步取决于所使用的模型,并且需要有人对想改进的实际模型的答案进行排名。因此,未来可能会出现一些公司,它们会提供第一步所需的数据集,并为第二步提供咨询服务。


此外,还将涌现出一些工具,以简化收集和提供此类训练数据的过程。如果你想大规模收集此类数据,那么就需要使用简化数据收集和处理过程的相关工具。Humanloop 公司则提供了一种软件开发工具包,可以从用户那里获取 AI 的答案反馈。

 

我们可以在ChatGPTJasper中观察到这些反馈循环的具体例子。如前文所述,ChatGPT 允许用户提供“赞”或“踩”作为生成答案的反馈。相比之下,Jasper 提供了更多的反馈细节和选项,让用户可以对文本进行赞、踩、标记收藏、删除或编辑修改。编辑后的文本可以显示出理想答案的特点。


Jasperai 提供了多个反馈回路


2. AI 内核公司构建模型

 

AI 内核公司致力于构建实际的大型语言模型,并将模型的商业化作为主要的收入来源。OpenAI 是当前最为著名的公司,不过也存在许多其他公司,如 AI21、Anthropic 和 Cohere。请参阅以下示例,了解 OpenAI、Cohere 和 AI21 的 API 测试平台(playground)和输出。


OpenAI、Cohere 和 AI21 的 API 测试平台对比

 

AI 内核公司可以选择对模型闭源或开源。闭源公司通常用 API 来隐藏其模型以保护它们。目前,闭源公司通常会按 API 调用次数向客户收取费用。


以下是 OpenAI 关于 GPT-3 的定价截图,由于所需模型的性能水平不同,API 调用的成本也会不同,使用性能较好的模型比使用性能较基础的模型昂贵。此外,还存在推理速度上的差异,以满足你对各种用例的时延需求。换句话说,你可以根据自身的实际需求选择适合的 LLM 性能水平,并在相关成本和性能之间取得平衡。

 

OpenAI 的定价模式

 

像Jasper这样的公司开始会在一个由 AI 内核公司构建的闭源 LLM 上构建他们的整个产品,这意味着他们没有实际的 LLM 知识产权。这是这些公司面临的主要风险之一,因为这使他们无法控制模型,无法根据自己的需求进行专业化改进。此外,闭源模型通常比你可以自己托管的开源替代方案更加昂贵。

 

开源模型的 AI 内核公司则不会有这些担忧。即使他们提供了 LLM 模型代码,许多公司也没有能力以强大、可扩展的方式将 LLM 模型投入生产并提供服务。因此,开源提供商通常通过模型托管服务来获取收益。当前,一些组织致力于构建开源 LLM 模型,例如 Eleuther、Together 和 BigScience/Huggingface 等等。值得一提的是,谷歌和 Meta 已决定开源其中的许多模型。


目前,大多数 AI 内核公司提供的是通用基础模型。根据我们在“基础模型 vs 专业模型”一节中的预测,LLM 模型的最大价值将来自于专用化的模型。


因此,对于 AI 内核公司而言(无论是选择闭源还是开源),他们可以提供基础模型,然后让客户使用自己的数据来训练这些模型,从而得到在特定领域表现更好的、专门针对客户需求的专用化模型。这项服务将成为 AI 内核公司的一个重要的收入来源。AI 内核公司还将提供越来越多的专用化模型,AlphaFold 就是一个典型的例子,它专注于蛋白质结构领域。


3. AI 原生和 AI 特色公司打造具有良好用户体验的 AI 应用


需要注意的是,使用 LLM 模型的大多数用户并非 AI 专家。因此,仅提供 LLM 模型的 API 并不能帮助他们解决任何问题,这就是为什么用户体验非常重要的原因。

 

随着基础 AI 模型的日益普及和专用化模型的开发越来越简单(得益于一些公司提供的支持,加速了模型专用化的过程),用户体验的重要性将会进一步提高。因此,在用户体验层面的差异将变得更加关键。

 

Jasper的发展历程是一个极好的例子,展现了用户体验的重要性。该公司成立仅 18 个月后在 A 轮融资中筹集了 1.25 亿美元,估值达到了 15 亿美元,当时他们吸引了将近 10 万付费客户,年收入达到 7500 万美元左右。

 

Jasper 最初没有自行构建任何 LLM 模型,而是选择了利用 OpenAI 的 GPT-3 作为基础,通过 API 接口构建出用户体验更好的应用。换句话说,他们更加注重开发易于使用和吸引人的应用,而不是自行构建 LLM 模型。在设计过程中,他们考虑了一些关键问题:


  • GPT-3 API 的 prompt 输入应该是什么样的?

  • 输出应该如何呈现?应该呈现多少条输出建议?

  • 用户存储和排名不同的备选方案是否易于操作?

  • 这个工具如何融入文案撰写的整个工作流程中?


虽然 Jasper.ai 和竞争对手 Copy.ai 几乎是在同一时间使用 OpenAI GPT-3 API 构建其应用程序,但是 Copy.ai 在最终用户中的影响力远不如 Jasper.ai。造成这种差异的因素可能有很多,其中用户体验是一个关键因素。

 

一个需要考虑的重要问题是:用户体验(UX)层与底层的 LLM 之间能有多大的独立性?在更改应用程序的底层 LLM 时,是否可以避免对用户体验产生负面影响?对于 LLM 的渐进改进(如使用更多数据进行训练,进行微调或专用化),用户体验层通常不会出现太多负面影响(相反,可能会产生积极效果)。

 

然而,对于 LLM 的重大变革,后果可能会更大。例如,大多数 LLM 目前只会从用户提示中获取信息并返回答案。因此,使用澄清问题来增加答案的相关性,将有助于提高模型的准确性。可以说,那些构建在 LLM 之上的公司正在创造出良好的用户体验来弥补底层模型的不足之处。

 

实际上,GPT-3 不会询问澄清问题,也不能一直提供完美的答案。因此像 Jasper 这样的公司就应运而生,他们可以提供多个答案,并允许用户轻松修改答案并对其进行排名以弥补缺陷。然而,当缺陷直接在底层的 LLM 中被修复时,这些公司必须寻找其他方式在应用程序层面提供价值,以保持他们在行业中的竞争地位。

 

根据 AI 模型对产品价值主张的重要程度,我们可以将应用程序层面的公司分为两类:AI 原生公司和 AI 特色公司。


AI 原生公司:将 AI 模型作为产品核心价值主张

 

AI 原生公司(AI Natives)指的是那些价值主张完全基于应用 AI 模型(如 LLM)的公司。这类公司自己不创建 AI 模型,而是利用商业版的 GPT、Google T5 和 Anthropic 以获得成本和性能方面的优势。前面提到的 Jasper.ai 和 Elicit.org(该公司创建了一个 UI,允许用户用自然语言浏览所有科学出版物的库)都属于这类公司。


Elicit.org 的研究搜索引擎

 

人们就 AI 原生公司的护城河展开了激烈的辩论,争议点在于:如果公司“仅”在他人 AI 模型的基础上提供拥有出色用户体验的 UI,那么公司的业务护城河究竟如何?

 

假如 ChatGPT 已经存在,那么成立像 Jasper.ai 和 copy.ai 这样的公司又是否可行?无论答案如何,就目前情况而言,几个 AI 原生公司已迅速获得了大量客户,同时筹集到大量资金。有了资金保障,这些公司就能招募团队,自己构建基础模型,深入研究技术并实现真正拥有模型。速度和创新对于这类公司至关重要:虽然它们可以通过依赖他人的 LLM 迅速开启自己的事业,但也需要快速适应才能存活下来。


AI 特色公司:利用 AI 模型来改进现有产品

 

AI 特色公司(AI Featured)将 AI 模型与现有产品相结合,以创建附加功能。对于这类公司而言,AI 功能并不是其产品的核心(至少在最初是这样)

 

生产力工具 Notion 就是一个很好的例子。Notion 本是一个记事工具,但最近添加了一个快捷方式,用于通过 prompt 生成文本(基本上是简单调用 OpenAI 的 API)。虽然这不是 Notion 的核心功能,但对于其用户来说,却是一个很有价值的补充功能,因为这使得用户可以直接在 Notion 中生成文本,而不用在其他地方生成好再复制粘贴过来。


Notion 新的 AI 功能


Google Docs 也利用 AI 模型来提供自动完成功能。虽然 Google Docs 的主要价值主张与自动完成功能无关,但该功能提高了用户的生产力,因而得到高度好评。Canva 也是一样。Canva 本是一个用于创建演示文稿的工具,但通过利用 AI 模型,演示文稿的文本和图形都可以根据用户的 prompt 和反馈来自动生成。

 

上述例子表明:用户体验是否出色对于 AI 模型的成功至关重要。那么如何利用 LLM 来提供出色的用户体验?关键点在于将 AI 模型深度集成到你想用 LLM 所解决任务的现有工作流程中。这也是目前这类公司中成功案例的标准做法。因此,预计将来还有很多 AI 特色公司都将成为各自领域的赢家。

 

话虽如此,但也有很多公司将 AI 功能集成到其产品后,并未给其用户带来多少额外价值。这些公司可能只是为了赶生成式 AI 的热潮。因此,区分哪些公司的 AI 特性能够真正提升用户价值十分重要。

 

4. AI 驱动公司:智能公司和增强人类生产力

 

AI 驱动类的公司消费 AI 产品但不提供任何 AI 应用程序或 AI 模型。这是目前市面上数量最为庞大的群体,预计在不久的将来,所以公司都将成为 AI 驱动公司,其大多数产品和服务都将包含某种 AI 功能。这个过程一般需要两步:

 

第一步,公司内部某些员工会根据自己的需求来利用 AI 产品提高工作效率。例如,营销经理可能会使用 Jasper 或 ChatGPT 来编写文案,而客户主管则可以利用 LLM 为潜在客户定制电子邮件。

 

第二步,AI 产品的利用方式更加系统化。此时 AI 产品的使用范围不再局限于公司内部个别员工,高层管理人员也开始使用 AI 来制定战略政策。公司也由此转型为“智能公司”。例如,BuzzFeed 在裁员 12%后,其首席执行官 Jonah Peretti 计划使用 AI 来编辑文章和协助商业运营操作。他预计 AI 的加入将会在短期内提升员工的生产力,并且在 15 年后,AI 则能够自主生产内容并提供个性化服务。在该消息发出后的一个交易日内,BuzzFeed 的股价就上涨了超 150%。

 

AI 能提高智能公司的自动化程度。上一个自动化时代主要围绕机器人流程自动化(RPA)展开,整个过程按照人类主导的基于规则的脚本来展开。而新时代的自动化一般将围绕生成式 AI(Generative AI )来运作,尤其是 LLM。

 

使用 LLM 时,我们能够超越基于规则的脚本,自动化更多异构任务,而不必给出明确指令。这些任务包括但不限于欺诈检测、简化客户服务任务、内容生成、会议转录、会议总结、法律文件分析等。

 

此外,LLM 还将在构思、讨论、解决问题和决策过程等多方面提高公司员工的能力。这种能力也将自然地集成到公司使用的日常工具中,如 Slack、Zoom 和 Notion。换言之,LLM 能倾听对话并适时作出贡献。如果权限够大,LLM 还能存储公司所有沟通内容,从而打破耗时且成本高昂的知识孤岛。

 

目前仍有许多公司尚不清楚生成式 AI 会对其未来发展带来多大影响。实际上,大多数公司都应该认真思考是否应该利用 AI 以及如何利用 AI 来提高生产力。因为在完善服务、提高质量以及控制成本方面,这可能就是拉开差距的地方。

 

5. AI 技术全栈公司

 

虽然我们根据 AI 公司在技术栈的哪个部分集中投入最多来将其分类,但实际情况并不总是那么黑白分明。无论类别如何,AI 公司通常都需要与整个技术栈进行互动和协作。

 

 

首先,AI 赋能公司提供训练数据,AI 内核公司用这些数据来训练 LLM,然后 AI 原生或 AI 特色公司使用 LLM 来开发应用程序。

 

如上文所述,应用层的公司有大量机会来收集用户反馈数据,而这正是强化学习 LLM 所需的数据类型。换句话说,应用层的公司通常既是应用程序提供者,也是数据提供者。要拥有从数据到应用层的整个技术栈,它们唯一缺失的部分就是模型层。实际上,Jasper.ai 最近宣布开始构建自己的 LLM,这将使他们拥有从数据到应用层的整个价值链。

 

同样,OpenAI 最开始在模型层,随着 ChatGPT 的推出,他们进入了应用层,通过收集人类反馈训练数据,他们现在已经能够进入数据层。换言之,他们也开始拥有整个 AI 技术栈的价值链。在未来,这样的例子将会越来越多。

5、未来发展

 

希望这篇文章能使你对生成式 AI 和 LLM 有个大致了解。不过,我们现在仍处于这个新时代的早期阶段,未来几年的进展甚至会超过前几十年的的累积之和。以下是值得进一步探讨的八个问题:


1. 生成式 AI 的淘金时代:继 2022 年高度关注 Web3 和加密货币后,投资者和企业家已经将重心大量转向了 AI,尤其是生成式 AI。现在已有大量资本进入该领域,这不由得使我们想起了 2021 年,心中自然而然生出一个问题:这会不会又是一场没有结果的炒作?


自 1956 年 AI 诞生以来,AI 领域就一直担负着人类很高的期望。每当这些期望无法被满足时,AI 就一次次进入了“寒冬”(指社会对该领域兴趣骤减且缺乏资金支持的时期)。但随着生成式 AI 的不断发展,这样的日子已经一去不复返了。在恰当用例上,AI 可以提供巨大的价值。然而,由于一些投资者在不了解情况下盲目投资,导致估值虚高,因此该领域可能会出现过热现象。话虽如此,我们始终坚信 AI 的黄金时代已然到来。


2. 智能组织和增强员工生产力:如上所述,AI 驱动公司将使用 AI 增强来实现任务自动化和改善决策能力,以此来提高生产力。有研究报告指出:Github Copilot 可以使开发速度提高 55%,这意味着通过利用 AI 模型,开发人员的生产力将显着提高。这很可能只是个开始,LLM 在代码生成方面会变得越来越好,甚至开发人员可能进入无代码时代。


就其他领域而言,比如法律、市场营销、销售、客户服务,也有望以类似的方法提高生产力。最终每个行业中的每个公司都将思考:这对我们意味着什么?在这场革命中,每个公司只能选择加入或者被加入。


3. 专用模型的崛起:预计大部分价值将来自于专业模型而非基础模型。因此,未来我们将会看到越来越多的专用模型,比如用于银行客户服务的模型就不需知道如何以说唱风写诗歌,而且还可以为个人任务或所属领域而打造更小的专属模型。


我们预测:实际上对于像 OpenAI、AI21 和 Cohere 这样的 AI 内核公司来说,开发出能让客户在他们基础模型上轻松创造出专业化模型的功能至关重要,因为所有人都在期待该功能,以解锁 LLM 的下一个价值级别(next level of value)

 

除了通过专用模型实现卓越性能外,应用层的公司还将获得一种私有模型,使得这类公司不仅是建立在基础 AI 模型(每个人都可访问)之上的不错 UX。

 

4. 多模态模型:虽然本文主要关注语言模型和文本数据,但生成式 AI 还包含其他模态,例如图像和声音。近来,人们正努力将不同模式组合到 AI 模型中,打造具备多模态输入输出能力的模型。最近,Google Research 团队发表了一篇论文(https://arxiv.org/pdf/2301.11325.pdf),展示了如何将文本转化成音乐。这种模型本身就很强大,有了这种模型,没有音乐背景的人能够通过自然语言描述,生成音乐。


但试想一下,如果我们将这种模型与图像转文本能力相结合,会怎么样呢?这意味着我们可以利用 AI 分析视频内容,生成描述性本文,最后由 AI 配上合适的音乐。另外,我们还可以反过来操作,如果已经根据文字提示生成了音乐,现在我们还可以用 AI 来生成相应视频。要做到以上这些,我们只需要向多模态模型发出一条指令。

 

黄仁勋是英伟达的创始人兼首席执行官,他曾于 2023 年 1 月访问瑞典,在那期间,我们曾与他讨论英伟达在生成式人工智能领域的重点。他提到英伟达不再像以前一样聚焦于单一模式,例如 MT-NLG,而是致力于构建多模态模型。


5. 人类反馈的强化学习(RLHF)的重要性:尽管人类反馈强化学习已出现多年,但还说不准它会对 LLM 的性能产生怎样的影响。

 

我们推测,与 GPT3 相比,GPT4 在初始训练数据和强化学习数据增加的情况下,其性能将获得跨越式提升。由于 ChatGPT 的普及,OpenAI 为强化学习积累到了前所未有的海量数据。虽然初始训练数据与强化学习的人类反馈数据之间的相对重要性还未可知,但我们认为,强化学习很有可能就是GPT-4的秘密武器

 

6. 扩展的重要性:如上所述,应用层公司可以收集相关的人类反馈进行强化学习。如果上面第五点关于人类反馈数据重要性的预测是正确的,那么拥有大量消费者的应用公司将能够聚集海量专有、关键数据,以改进模型。


考虑到微软与 OpenAI 的合作伙伴关系,在这场由 AI 主导的竞赛中,其它媒体都认为微软会是注定的赢家,但我们不能忽略 Meta、谷歌、苹果、亚马逊、阿里巴巴和微信等公司,因为他们拥有大型面向客户的应用程序。要记住,数据才是改进大型语言模型唯一真正有效的替代方案,因为模型规模和框架都可以被复制(根据一些研究文章)。


7. 更多的公司将成为数据公司:因为训练 LLM 需要大量的对话数据,所以那些能够大规模收集此类数据的公司将受到高度重视。比如 Twitter,它收集了最大的对话数据集之一。ChatGPT 背后的模型就是在 Twitter 数据上进行训练的,但 Elon Musk 知道后立即叫停了这类训练。也许未来 Twitter 的大部分收入将来自于出售对话数据访问权? Meta 拥有 Facebook、Instagram 和 Whatsapp,是另一家可以访问大量对话数据的企业,试想一下,如果 Meta 的对话数据成为一项独立业务,会产生多么大的价值呢?

 

8. 公众舆论和监管的焦点仍在于 AI 伦理及其社会影响:版权问题、模型可信度、劳工问题和网络安全等话题已引发激烈辩论,甚至可能引起监管机构的注意。公司应谨慎应对监管环境。现在已经有许多法规示例即将出台,例如欧盟 AI 法案和中国禁止创建无水印的 AI 生成媒体。目前的监管还处于不确定时期,在此之前,希望每个人都贡献一份自己的力量,在 AI 应用中保持公平正义。


其他人都在看


欢迎 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

发布于: 刚刚阅读数: 3
用户头像

OneFlow

关注

不至于成为世界上最快的深度学习框架。 2022-03-23 加入

★ OneFlow深度学习框架:github.com/Oneflow-Inc/oneflow ★ OF云平台:oneflow.cloud

评论

发布
暂无评论
“ChatGPT们”的淘金时代_OneFlow_InfoQ写作社区