写点什么

ChatGPT 搜索风暴

作者:OneFlow
  • 2023-02-17
    四川
  • 本文字数:7742 字

    阅读完需:约 25 分钟

ChatGPT搜索风暴

搜索引擎的市场格局已经有二十年没有什么大的变化,如今,Google 和微软两大巨鳄的交锋再度上演。ChatGPT 风靡之时,搜索成为大型语言模型(LLM)应用之争的最大战场。


在 LLM 技术进程方面,Google 的相关大模型研发实际上与 OpenAI 的 ChatGPT 差不多齐头并进。但刚刚仓促推出的 Bard 显得很被动,Google 官方的解释是,他们需要考虑新技术对社会的影响,不想推出一个漏洞百出的搜索系统。


不过,作为商业公司,任何行为的背后都要考虑经济成本。要知道,搜索中广告市场份额的 1 个百分点的变化,都可能带来至少数亿美元营收上的幅度波动。Google 要将应用效果还不是很好的 LLM 作为基础技术,引入到全球市场占比 92%的搜索引擎业务中,如果没有外部对手发起的强大挑战,很难进行大胆革新。


另一方面,自我革命是一件严重违背人性的事,更何况大厂还有所谓的“大企业病”,畏首畏尾在所难免。

这恰好是微软 Bing 的可乘之机,全球市场份额目前占比不到 3%,历史包袱很小,New Bing 要推出的消息让 Google 急不可耐。


ChatGPT 的用户已经到 1 亿了,可想而知,如果 Google 搜索这次不跟 LLM,还是按照自己的节奏去逐步更迭,其搜索业务的老底存在被倾覆的巨大风险,要是 Google 跟了 LLM,要承受用户体验不佳的风险,还必须得在已有搜索成本上大出血——大约还要支出 300 亿美元的成本。


当然,Google 与微软双方高层比任何人都清楚这一点,只是前者更多是焦虑不安,后者则是兴奋不已。


综合考虑风险后,Google 只能硬着头皮迎战,于是就有了 Bard。Bard 的意思是“流浪诗人”,根据百度的结果,这类诗人通常行事半调子而不拘小节,样样通而样样松,还别说,这个作风倒是挺符合现在 LLM 模型目前的能力特质。相较之下,微软 New Bing 现在像是个牛气哄哄的“拼命三郎”,就想干一票大的,毕竟在某种程度上,Bing 已经没什么可失去的了,而且这次很可能还要触底反弹。


那么,ChatGPT 究竟会如何影响现在搜索架构以及相关业务成本?此前,OneFlow 发布了《ChatGPT背后的经济账》,文章从经济学视角推导了训练大型语言模型的成本。本文则从 LLM 搜索架构和成本分析出发,探讨了微软 Bing 和 OpenAI 利用大型语言模型 (LLM) 对搜索业务的潜在颠覆性,并分析了 LLM 在搜索中的演进和发展情况。 


(以下内容经授权后由 OneFlow 编译,译文转载请联系 OneFow 获得授权。原文地址: https://www.semianalysis.com/p/the-inference-cost-of-search-disruption)


作者|Dylan Patel、Afzal Ahmad

OneFlow 编译

翻译|杨婷、徐佳渝、贾川


OpenAI 推出的 ChatGPT 风靡全球,仅在一月份就迅速积累了超 1 亿活跃用户 ,成为史上用户增长最快的应用程序。在此之前,Instagram 花了 30 个月才跨过 1 亿用户门槛,TikTok 用了 9 个月。每个人最关心的问题是大型语言模型(LLM)对搜索的破坏性有多大。微软此前宣布了一条震惊世界的消息:OpenAI 的技术将整合到 Bing 搜索引擎中。


New Bing 会让谷歌坐立不安,我想让大众知道我们正是让谷歌按捺不住的助推器。——Satya Nadella,微软 CEO


谷歌近来的举动让大众觉得他们正“焦躁不安”。虽然我们相信谷歌拥有世界上最好的模型和最先进的 AI 专业知识,但长期以来,他们却没能将自身的领先优势变现。而来自微软和 OpenAI 的竞争压力正在迅速改变这一情形。


给搜索领域带来颠覆和创新需要投入资金,而训练 LLM 的成本很高。更重要的是,不管以何种合理的规模部署模型,其推理成本都远超训练成本。


实际上,每周推理 ChatGPT 的成本都超过了其训练成本。目前 ChatGPT 每天的推理成本为 700,000 美元。如果直接将当前的 ChatGPT 集成到谷歌的每次搜索当中,那么谷歌的搜索成本将大幅上升,达到 360 亿美元。谷歌服务业务部门的年净收入将从 2022 年的 555 亿美元下降至 195 亿美元。若将“类 ChatGPT”的 LLM 部署到搜索中,则意味着谷歌要将 300 亿美元的利润转移到计算成本上。


当然,这种情况永远不会发生,在软件/硬件方面改进之前,这只会是一种有趣的假设。

1、搜索业务


首先来看一下搜索市场的情况。据调查,谷歌每秒运行的搜索查询约为 32 万次,而谷歌的搜索业务部门在 2022 年的收入为 1624.5 亿美元,每次查询的平均收入为 1.61 美分。谷歌必须为计算和网络搜索、广告、网络爬行、模型开发、员工等支付大量开销。在谷歌的成本结构中,一个值得注意的项目是:为了成为 Apple 产品的默认搜索引擎,他们支付了约 200 亿美元。


谷歌服务业务部门的营运利润率(operating margin)为 34.15%。如果我们为每次查询分配 COGS/运营费用,那么每次搜索查询的成本为 1.06 美分,产生的收入为 1.61 美分。这意味着,基于 LLM 的单次搜索查询费用必须低于 0.5 美分,否则搜索业务对谷歌来说将毫无利润可言。


New Bing 将融合一款新的下一代 OpenAI 大型语言模型。该模型针对搜索业务进行了定制,汲取了 ChatGPT 和 GPT-3.5 的重要经验和成果,速度更快、更准确且功能更强大。——微软


2、ChatGPT 的成本


由于有部分未知变量,所以估算 ChatGPT 的成本是一个棘手问题。我们建立了一个成本模型,模型显示 ChatGPT 在计算硬件方面的每日运营成本为 694,444 美元。为维持 ChatGPT 的运行,OpenAI 需要约 3,617 台 HGX A100 服务器(28,936 个 GPU),预估每次查询的成本为 0.36 美分。


我们的成本模型是在每次推理的基础上从头开始构建的,但它与 Sam Altman 推文和他最近所做采访所做的介绍一致。


我们假设 OpenAI 使用了 GPT-3 密集模型架构,这个架构的参数大小为 1750 亿、隐藏维度为 1.6 万、序列长度为 4000、每个响应的平均 token 数为 2000、每个用户响应 15 次、有 1300 万日活跃用户、浮点运算(FLOPS)利用率比 FasterTransformer 高 2 倍且延迟小于 2000 毫秒,int8 量化,纯闲置时间占用 50%的硬件利用率,并且每个 GPU 每小时成本为 1 美元。如有不同意见,欢迎指出。虽然我们相信我们处于正确的区间内,但很乐意使其更加精准。


3、使用 ChatGPT 的搜索成本


如果 ChatGPT 被整合到谷歌现有的搜索业务中,那么其影响将是毁灭性的。谷歌的营收将减少 360 亿美元。以下是 LLM 的 360 亿美元推理成本。



若想将当前的 ChatGPT 部署到谷歌搜索,则需要 512,820.51 台 A100 HGX 服务器和共计 4,102,568 个 A100 GPU。在这些服务器和网络的总成本中,仅资本支出就超过 1000 亿美元,其中大部分资金将流向英伟达。当然,这永远不会发生(但如果我们假设没有任何软硬件改进的话,可以将其当成一次有趣的思想实验)。使用谷歌的 TPUv4 和 v5 在订阅者部分建模也有不同的推理成本,同时我们还有一些 H100 LLM 推理性能方面的改进数据。


令人惊讶的是,微软知道将 LLM 融入搜索会摧毁搜索的盈利能力,并需要大量的资本支出。尽管我们估算了营业利润的变动,但还是来看看萨提亚·纳德拉(Satya Nadella)对毛利率的看法吧。


从现在开始,搜索的[毛利率]将一直呈下降趋势。——Satya Nadella, 微软 CEO


搜索毛利率下降已成既定事实,更不用说随着搜索质量的提高,搜索量可能会有所减少,我们难以在大型语言模型的响应中植入广告,以及稍后本报告会讨论的其他众多技术问题。


微软正在不遗余力地摧毁搜索市场的盈利能力。


在搜索广告市场中,每增加一个百分点的份额,我们的广告业务就有可能获得 20 亿美元的收入。——微软


必应的市场份额很小,但微软抓住的任何份额增长都将给他们带来巨大收益。


我认为我们双方都会受益匪浅。我们将逐步发掘出这些大模型的潜能,但如果搜索业务被垄断,发展停滞不前,在这种情况下如何从搜索和广告中营利都会是一个问题,并且我们还要应对可能出现的短暂下行压力,这种情况是我所不愿看到的。


大模型的发展潜力巨大,难以想象我们不知道该如何利用它们来发家致富。——OpenAI  CEO Sam Altman


与此同时,在这场竞争中,谷歌正处于劣势地位。如果谷歌的搜索市场地位被动摇,那么它的利润将受到极大的影响。搜索市场份额丢失所带来的影响可能会比上面分析的更加糟糕,因为谷歌的运营成本非常高。


4、谷歌的应对措施


对此,谷歌并没有坐以待毙。在 ChatGPT 发布短短几个月之后,谷歌就紧随其后向公众推出了集成 LLM 的搜索版本。就目前我们所看到的,微软的 New Bing 和新版谷歌搜索各有优劣。


集成了 ChatGPT 的 New Bing 搜索引擎在 LLM 功能方面似乎更加强大。谷歌在搜索准确性方面存在问题,甚至在 Bard 的演示中也出现了这种问题。但是在响应时间方面,谷歌的 Bard 可以直接碾压 Bing GPT。这些模型响应时间和搜索质量方面的差异与模型大小直接相关。


Bard 将世界知识的广度与大型语言模型的力量、智慧和创造力相结合,并利用网络提供及时、优质的回答。谷歌 Bard 由 LaMDA 轻量级模型版本提供支撑,这种小型模型需要的算力更少,可以辐射到更多用户,获得更多反馈。——谷歌


谷歌正通过部署轻量级模型来争取更大的利润空间。他们本可以部署全尺寸大小的 LaMDA 模型或功能更强、更大的 PaLM 模型,但是他们没有这样做,反而选择了 LaMDA 轻量级模型。


对于谷歌来说,这是一种必然选择。


谷歌无法将这些庞大的模型部署到搜索当中,因为这会大大降低毛利率。稍后我们会详细讨论 LaMDA 的轻量级版本,但重要的是,我们要意识到 Bard 的时延优势是其竞争力之一。


谷歌的搜索收入来自广告,不同的用户在搜索时会给谷歌带来不同的收益。相比印度男性农民,美国郊区女性平均每个目标广告所带来的收益要高得多,这也意味着不同用户会带来截然不同的营业利润率。


5、LLM 在搜索中的发展


将 LLM 直接融入搜索并不是改进搜索的唯一方法。多年来,谷歌一直在搜索中使用语言模型来生成 embeddings。这种方法可以在不增加推理成本预算的基础上,改善最常见的搜索结果,因为这些 embeddings 可以一次生成,供多个搜索结果使用。


相比 ChatGPT 拥有的 2000 个 Token 输出总数,从 Bing GPT 的 84 个不同的实例来看,Bing GPT 约为 350 个 Token 的输出总数明显较少。多数情况下,人们在搜索时不愿阅读大量繁琐的信息。此估算考虑了未向用户展示的 token。


后续优化是实现前 2000 个关键词占搜索量的 12.2%,其余的则是纯导航性搜索(purely navigational searches)。假设 20%的搜索不需要 LLM。最后,相比使用基于 NVIDIA 的 HGX A100 的 Microsoft/OpenAI,谷歌使用内部 TPUv4 pod 的基础设施优势更明显。



这些简单的优化可以让谷歌以仅 30 亿美元的额外成本将 LLM 部署到搜索当中。如果一切从一开始就完美设置,那么谷歌单在硬件上的支出成本就约为 200 亿美元,其中包括数据中心基础设施。这是在 NVIDIA H100 和谷歌的 TPU v5 等新硬件或 MoE、稀疏性、剪枝、模型蒸馏、kv 缓存和提前退出机制(early exit)等各种技术成本增加之前的情况。


人们不会接受连接到互联网的 ChatGPT 接口。因为运行速度很慢、容易编造虚假信息、并且无法有效变现。不过上述分析仍然过于简单化。


由于用户体验发生了转变,单位收入经济学(unit revenue economics)和成本结构将在未来 2 到 3 年内迅速改变,实现完全重构。


如果要从收入和成本方面更深入地了解这一变化,那么我们首先要搞清当前的搜索架构,因为它是未来变化的基础。


从较高的层面来看,搜索的目标是尽快提供相关信息。用户输入关键词时,搜索结果最好要按照优劣从上到下排列。搜索工作流(search pipeline)主要有四个进程:爬虫、索引、查询处理器和广告引擎。机器学习模型早已渗透进这四个领域。


爬虫


爬虫会自动定位互联网上的新内容,这些内容包括网页、图像和视频,然后它会将这些内容添加到搜索引擎的数据库(索引)中。通过机器学习,爬虫能够确定要索引页面的价值并识别其中的重复内容。它还能分析页面之间的链接,评估哪些页面可能相关且重要,这些信息会被用于优化抓取过程,确定抓取内容、频率和程度。


爬虫在内容提取方面也起着重要作用。它的目标是实现网页爬取内容的全面文本化,同时使数据总量最小化,以确保搜索的速度和准确度。时延(latency)对于搜索来说至关重要,即使是几百毫秒的变化,也会极大地影响用户搜索量。


谷歌和 Bing 利用图像和小型语言模型来生成在页面/图像/视频中并不存在的元数据。大规模扩展这些功能是将大型语言模型和多模态模型融入搜索的突破点,目前所有简单的搜索成本模型都没有考虑到这一点。


索引


索引是一个用于存储爬取信息的数据库。在索引层中可以进行大量预处理,以最小化必要搜索的数据量。这最大限度地减少了时延,提高了搜索相关性(search relevance)。


  • 相关性排序:可以使用模型基于相关性对索引中的页面进行排序,以便首先返回用户搜索查询最相关的页面。

  • 聚类:可以使用模型将索引中的相似页面进行分组,让用户更容易地找到相关信息。

  • 异常检测:模型可以检测索引并删除其异常页面或垃圾页面,进而提高搜索结果的质量。

  • 文本分类:可以使用模型基于内容和上下文对索引中的页面进行分类。

  • 主题建模:模型可以识别索引页面涵盖的主题,每个页面对应一个或多个主题。


虽然当前索引层是由较小的模型和 DLRM 完成,但如果插入 LLM,搜索的有效性将会得到显著提高。而其他简单搜索成本模型(model of search costs)都忽视了这一点。我们将在本报告的后面讨论用例并估算成本。


查询处理器


查询处理器是搜索堆栈中最受关注的层,用于接收用户的查询并生成最相关的结果。首先需要解析用户的查询,再将其分解为关键字和短语,进而从索引中抓取最相关的项,然后对用户的特定查询进行重新排序及过滤。此外,查询处理器还负责将这些结果返回给用户。


目前在该工作流中部署了多个模型,从简单的拼写检查到自动向用户查询添加相关术语的查询扩展,以提高搜索结果准确性。根据用户的搜索历史、位置、设备、偏好及兴趣对结果进行相关性排序及个性化处理。不过当前要想实现这一点需要在多个小型模型上运行推理。


由于用户提交的是实时查询,因此必须快速高效地执行查询处理。相比之下,爬虫和索引是一个持续性的过程,且无需与用户进行交互。


此外,谷歌和 Bing 使用了迥然不同的硬件以实现其经典方法(classical approaches)。谷歌使用了大量标准化 CPU 和内部 TPU,而 Bing 目前使用的是大量标准化 CPU 和 FPGA,其 FPGA 加速了排序方法(Ranking)和 AI。


广告引擎


虽然搜索堆栈的最后三个部分是满足和留住用户的关键,但许多人认为广告引擎是最重要的,因为所有变现都源于广告引擎的质量。查询处理器与广告引擎是实时交互的,广告引擎必须对用户查询、用户档案、位置和广告效果(advertisement performance)之间的关系进行建模,为每个用户生成个性化的推荐,从而最大限度地提高点击率和收入。


广告市场是一个实时竞价的大市场,广告商通常在这里为关键词、短语或特定用户类型付费。因为支付的金额并非衡量服务的唯一标准,所以广告模型不再将其作为唯一准则。由于该模型需要优化转化率以获得收益并提高比率,因此搜索相关性是高度优化的参数。


总体而言,过去 4 年,谷歌搜索结果的顶部页面有 80%的结果没有任何广告。此外,目前只有一小部分(不到 5%)的搜索中有四个排名靠前的文本广告。——谷歌


使用了 LLM,消费者阅读到就不仅限于前几个结果,这些结果中的广告可以变成广告商的销路。相反,现在广告成为了 LLM 的输出。因此,随着对话 LLM 的问世,广告成了搜索堆栈中变化最大的一部分。我们将在本报告后半部分讨论变现的方式和变化,因为这是广告服务运作方式的根本转变。


6、根本性转变


搜索中的 LLM 不单是一个融入搜索引擎界面的大模型。相反,它是一个多模型融合的大模型,每个模型的任务是为整个链条中的下一个模型提供最密集、最相关的信息。


这些模型必须基于活跃用户进行不断重新训练、调整和测试。谷歌是首个在搜索堆栈的四个层中使用人工智能的企业,但如今搜索正在经历用户体验、使用模式和商业化结构的根本性转变,这可能会使许多软件堆栈的现有部分失效。


问题的关键在于谷歌能否胜任这项任务。在保护好自己“金蛋(golden egg)”的前提下,谷歌能调整其搜索堆栈吗?


快速前行,打开局面。——马克 扎克伯格,2011


在弄清楚应用模式(usage models)之前,谷歌在超优化(hyper-optimize)其搜索堆栈方面是否有文化要求?假设谷歌以最低成本将过多资源投入运营中,并且达到了搜索相关性的局部最大值。


在这种情况下,谷歌可能会迷失方向,反而限制了本该用于扩展和测试新应用模式的模型发展和创新。相反,微软和 OpenAI 更具冒险精神,更可能大刀阔斧地对搜索堆栈的四个元素进行彻底改造。


谷歌过于谨慎和过早优化的最明显例子就是研发 Bard。


Bard 将与 LaMDA 的轻量级版本一起发布。这个小得多的模型需要的算力更少,所以我们能将其扩展到更多的用户,从而获得更多的反馈。——谷歌


谷歌正在缩减(cut down)2021 年初开发出来的一个模型。当然,从开发至今,该模型有所改进,但现在 OpenAI 和微软使用的是 2022 年底和 2023 年初开发出得更大的模型和更新的架构,并得到 ChatGPT 的持续反馈。所以谷歌所见所闻该模型情有可原,但这也可能会让谷歌在用户体验和迭代速度方面受到重创。


更令人担忧的是,在过去的几个月里,一些有远见卓识的人才(例如 BERT 的教父,PaLM 推理的首席工程师和 Jax 的首席工程师)开始涌向初创公司,比如 OpenAI。这可能是谷歌的文化弱化(weakening culture)的迹象。


想象一下,如果这场搜索竞争导致谷歌的股票持续下跌,而 RSU(限制性股权)的价值远低于预期,这对员工的士气和忠诚度有何影响?


或者说,由于 Bing 要争夺市场份额,并抬高了谷歌目前拥有的苹果专属协议,搜索业务不再是无尽的摇钱树,那又会怎样?谷歌是否必须在运营包括谷歌 Cloud 在内的亏损业务时勒紧裤腰带?


7、时延


谷歌的 Bard 是一个较小的模型,时延响应时间较低。此外,谷歌内部还有一个非常优越的 PaLM 模型,但目前还无力部署。


即使时延为 2,000 毫秒(常规搜索的 4 倍,包括互联网时延和 20 倍的处理时间),PaLM 也只能处理输入的 60 个 token(约 240 个字符)和输出 20 个 token(80 个字符)。当在 64 个 TPUv4 上并行运行时,始终只达到约 35%的利用率。



重要的是,LLM 需要在搜索堆栈的非时间敏感部分(non-time-sensitive portions)使用。此外,虽然时延会更高,但 batch size 越大,在堆栈的这些部分实现的利用率就越高。


除了低时延标准,序列长度增加(sequence length growth)也是将 LLM 融入搜索的最大挑战之一。


8、Context 至上


面向用户的模型和未来 AI 芯片的关键在于增加它们的 context window(上下文窗口),以便可以通过层(layer)向前传送更多先前模型或源材料。就推理成本而言,扩展序列长度的成本也非常高,这会扩大成本结构。


因此,在实时方面将围绕 context window 进行多种优化。在爬虫和索引阶段,可以最大化 context window 以尽可能地将源材料密集化,达到力所能及的高质量标准。


这样就可以在堆栈的实时查询部分启用更小的模型,以最大限度地减少搜索和 context window 的数量,从而减少时延并缩短响应时间。


9、整个搜索堆栈中的 LLM 实现


看看微软如何以相同的方式应用这些技术为某些高级企业的搜索和对话式 AI 助手提供服务,用 AI 扫描过去 30 年中的每个文档、电子邮件、Excel 工作表、PDF 和即时消息,这也是一件很有趣的事。如何在运营和基础设施层面设想新的搜索堆栈也很重要。


当然,谷歌仍然拥有其 Android、YouTube、地图、购物、航班和照片等业务模块,在这些领域微软几乎无法与之竞争。因此无论发生什么,这些业务模块都足以让谷歌在搜索领域维持领先地位。


其他人都在看

ChatGPT数据集之谜

ChatGPT进化的秘密

ChatGPT背后的经济账

OneFlow v0.9.0正式发布

比快更快,开源Stable Diffusion刷新作图速度

OneEmbedding:单卡

训练TB级推荐模型不是梦

GLM训练加速:性能最高提升3倍,显存节省1/3


欢迎 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

发布于: 刚刚阅读数: 4
用户头像

OneFlow

关注

不至于成为世界上最快的深度学习框架。 2022-03-23 加入

★ OneFlow深度学习框架:github.com/Oneflow-Inc/oneflow ★ OF云平台:oneflow.cloud

评论

发布
暂无评论
ChatGPT搜索风暴_人工智能_OneFlow_InfoQ写作社区