对 AI 产品定价模式的新思考:基于人数 or 工作量?
编者按:传统的基于用户数量的定价模式是否还适用于 AI 产品?我们今天为大家带来的这篇文章中,作者提出:AI 产品应该采用基于工作量的定价模式,而非传统的基于用户数量的定价方式。
传统的基于用户数量的定价模式在 AI 产品中往往会导致资源浪费和成本分配不均。一些员工可能每天都在大量使用 AI 工具,而另一些人可能几乎不碰。这不仅会增加企业的不必要开支,还可能阻碍 AI 工具在整个组织中的广泛应用和创新。
作者分享了他们在 AI 产品定价方面的思考和初步尝试。文章探讨了基于工作量定价的优势,同时也坦诚地指出了这种模式可能面临的挑战,如如何界定"已完成的工作",以及企业预算管理的复杂性等。如果你正在思考 AI 产品的定价问题,期望这篇文章会给你带来新的启发。
作者 | Vikram Sreekanti & Joseph E. Gonzalez
编译 | 岳扬
给产品定价历来是个难题,我们并不自诩为定价专家。目前,我们还在初步尝试为 RunLLM(runllm.com) 找到一个合适的定价模式,这个问题最近一直萦绕在我们的心头。我们觉得,将我们随着与客户互动的深入而逐渐成熟的思考过程分享出来,以及探讨人工智能产品的特性如何影响定价规则,或许对大家有所启发。
简单来说,我们得到的启示是,基于用户人数的定价方式并不理想,人工智能工具更应按照完成的工作量来设定价格。 这个观点或许对某些人来说是显而易见的真理,对另一些人来说则是激进的新观点,但这绝非什么新奇的想法,甚至算不上是一个新概念。
Source: DALL-E 3.
从以往来看,大多数办公效率工具的价值在于能够与整个公司紧密结合。像 Slack、Linear、Notion 这样的团队协作工具,团队规模越大,其使用频率就越高。虽然每个新成员带来的使用频率增长可能不是绝对线性的,但团队规模和产品使用量之间确实存在正相关。即便没有创建更多的新任务或撰写更多的文档,让每个团队成员都能使用这些工具,其益处也是显而易见的。
然而,基于人工智能的效率工具打破了这一传统模式。以电子邮件为例,我在 RunLLM 担任 CEO 和在加州大学伯克利分校担任教授时,每天收到的邮件量与 RunLLM 的工程师或普通研究生收到的邮件量有着天壤之别。因此,如果一款基于人工智能的邮件回复工具按照人数来收费,那就显得不太合理了 —— 毕竟,每天撰写 100 封邮件所需完成的工作量远远超过了仅写 2 封邮件。
这正是 Notion AI 等工具让人感到不平的地方。当团队中某些成员因工作需求而需要投入大量时间写作时,为每个人每月支付 10 美元开通 Notion AI 就显得有些不合理。(再加上我们还觉得 Notion AI 的实际效用并不大…)Notion AI 与 Notion 的常规定价模式需要有所区别,因为在后者这种情况下,即便用户不常写作,能接触到公司文档本身就具有价值。 而人工智能的价值在于其提供的自动化服务(它所完成的工作)。因此,我们更希望按照这一服务量来付费。
这就是基于工作量的定价原则,我们发现越来越多的 AI 产品开始采用这种定价模式。RunLLM 的计费方式是依据所回答问题的数量来确定的。基于 AI 的 SDRs(Sales Development Representatives) 则是根据安排的会议数量来收费。而模型提供商,自然是根据所生成的 token 数量来设定价格的。
01 基于服务使用量的定价模式并非新事物
我们所说的基于工作量的定价,实际上就是一种基于服务使用量的定价模式,这种模式自云计算软件兴起之初便已存在(其历史甚至可以追溯至公元前 3000 年,美索不达米亚地区对灌溉用水的计价)。 如今,从 AWS、GCP 等云服务提供商那里使用的绝大多数服务,其计费都是基于租用的计算资源时间(以秒或小时计)和数据存储量。随着 serverless 架构的流行,计费模式变得更加精细:用户只需为自己实际使用的资源付费,而不是为租用的资源付费。
然而,企业历来对于完全基于服务使用量的定价模式持保留态度,因为这种模式下的费用难以预测,预算编制也相对困难。实际上,当云函数(cloud functions)开始流行时,一家主流云服务提供商透露,他们面临的最大挑战是企业客户们尚未准备好接受云函数的固定使用量合同 —— 因为他们采用的是纯粹的基于服务量的计费模式,企业客户对此类基础设施的采用意愿不高。
在基础设施层面实施基于服务使用量的定价模式,历来也很难实施。虽然计算某个函数运行时间相对简单,但现在需要在成千上万的服务器和数百个数据中心中可靠地跟踪这些数据(即使在发生故障的情况下)。此外,服务的启动和关闭也产生了成本,而且随着在不同工作负载之间频繁切换,这些成本的产生频率也会更高。因此,直到最近,基于服务使用量的定价模式主要还是应用于基础设施层面(这一领域的团队拥有解决相关问题的专业能力),而其他领域则普遍采用了基于使用人数的定价模式。
02 基于服务使用量的定价模式更适合 AI 产品
AI 产品理应得到特殊对待。我们在上文做了简要总结,解释了为何基于工作量的定价模式对 AI 产品而言具有重要价值,但这一话题值得深入挖掘。
精心打造的 AI 产品能够大幅提升企业生产力,以低于传统方式的时间消耗和成本产出高质量、堪比人类的工作成果。这意味着,那些人们通常不愿意做的枯燥任务 —— 例如,回复成百上千次相同的客户咨询、处理重复的电子邮件、挖掘潜在的销售线索 —— 将交由人工智能来完成。自动化处理越多这样的繁琐任务,人们就能有更多时间投入到更有价值的工作中。
这一变化带来了两个重要成果。首先,企业的付费模式将从按人头计费转变为按实际完成的工作量计费。团队成员能够了解 AI SDR 的工作情况,提高了透明度,但并不会改变产品的产出。其次,在定价模式中,可以实际考虑到工作的完成质量。就像人类一样,AI Agents 有时也会犯错,这一点可以在评估产品增加的价值时予以考虑。
举个我们很熟悉的例子,客户支持团队通常根据他们处理的工单数量和处理速度来衡量其工作效率;RunLLM 能够以更低的成本和更高的准确性完成这项工作,所以我们根据回答的问题数量来向客户收费。但如果收到一个不相关的问题,比如“谁赢得了拿破仑战争?”或者如果找不到数据来回答一个相关的问题,我们就没有为客户创造任何价值,所以我们不会向客户收费。
随着讨论的深入,这种做法听起来越来越像是咨询公司的工作方式。一般来说,这是件好事。与传统软件不同,AI 能够生成连贯的端到端工作(end-to-end work),这正是咨询公司期望能够提供的服务。如果你相信这股 AI Agents 热潮,那么你可能会认为这意味着你将拥有一支 AI Agents 团队,为你处理所有繁琐的工作。是否每个领域都会出现这种情况还有待观察,但对于那些 AI 已经展现出良好工作能力的领域 —— 如客户支持、销售、文档编写等,这已经成为现实。
03 按工作量定价面临的挑战
当然,切换到基于工作量的定价模式并不是万能的解决方案。根据产品完成的工作量向客户收费会引发一些边缘情况,这些问题是直接采用基于人数的定价模式可以避免的。
最明显的一个问题在于如何界定“已完成的工作”。 以基于 AI 的 SDR 服务为例,你是根据预订的会议、实际举办的会议还是转换成功的会议来收费?有些咨询公司会根据这三种不同的方式收费,收费越高意味着每项服务的成本越高。这里没有标准答案,但主要挑战在于现在的客户对 AI 更加持怀疑态度。人类犯的错误可以轻易弥补:“对不起,我们会确保不再发生!”而 AI 犯的错误则会被更加仔细地审查,我们必须不遗余力地让大家相信,人工智能可以像人类一样学习(有时甚至更快!)。在产品的大规模应用时,这些 AI Agents 必须能够自主运行,因此您需要赢得客户的信任,让他们相信您的产品会按其应有的方式运行。
正如我们上文所讨论的内容,对于基于服务使用量的定价模式,企业预算的管理也很棘手,但这是一个相对比较容易解决的问题。我们观察到的普遍原则 —— 同时也是我们在 RunLLM 所采用的方法,是一个分层的、基于服务使用量的定价模式。客户需要为预期的服务使用量预付一定金额,然后对于超出部分按计费单位付费。 这种计费模式在以往也是相当标准的做法,所以并没有什么特别的秘诀可言。
最有趣,也是最具挑战性的问题在于理解所做的工作对用户的价值。我们之前分享的云基础设施例子,属于低利润但高工作量的业务。GPU 服务的价格不仅仅取决于你使用了多少秒,还取决于你使用的资源(GPU)的成本。另一方面,交付工作(Delivering work)则是一个高利润但低工作量的业务。这意味着每单位工作量的价格会更高,甚至可能会让一些企业感到意外。尽管如此,我们认为基于工作价值(大致等同于你需要支付给人类来完成这项工作的费用)的定价模式是正确的方向。
再次强调,这一问题没有绝对正确的答案。 但我们已经看到,随着客户逐渐理解他们不是在为计算资源付费,而是在为高质量的工作成果付费,他们的想法正在发生变化。尽管如此,我们还有很长的路要走,才能将这一信息有效传达给市场。
04 凡事总有例外
凡事总有例外。在这种情况下,最明显的例外就是引发了 GenAI 革命的两款工具:ChatGPT 和 GitHub Copilot。这两款产品都采用固定的基于人数的定价模式,而不是根据服务使用量来定价。
这种定价方式之所以可行,主要有两个原因。首先,预测这两款工具的使用量非常困难,因此基于像使用的 tokens 数量这样的指标来定价可能会产生负面激励 —— 你不知道自己要付多少钱,所以可能会担心如果不小心可能会增加使用成本。更重要的是,在这种情况下,量化“工作量”的难度甚至比前文描述的案例还要大。ChatGPT 如何判断它是否完成了任务,或者 GitHub Copilot 如何确定其代码自动补全是否具有价值?在这两种情况下,都需要依赖于用户的反馈,而用户的反馈可能是不准确的,并且可以被控制。
从这两个例子中可以看出,由于任务成本相对较低且任务性质相对通用,基于人数的定价模式在短期内可能会继续有效。我们可能会在其他通用产品中看到同样的趋势,但随着市场的成熟,我们希望看到像 Copilot 这样的产品能朝着更全面地完成任务,并根据完成的工作量收取相应的费用的方向发展。
尽管 AI 市场在过去 18 个月里发生了巨大变化,但我们仍然处于非常早期的阶段。每一家真正的 AI 原生企业都在学习理解客户行为,这意味着从定价策略(pricing)到利润率(margins),再到基于数量的折扣(volume-based discounts),一切都在不断地探索和调整之中。我们和其他人一样,都在这个探索的过程中,我们并不认为自己已经找到了答案,但最近几周我们一直在思考这个问题,因为我们正在重新设计 RunLLM 的定价策略。
这里还有一个关于“如何实施基于服务使用量的计费模式”的子话题,以及是否值得为许多为实现这一过程自动化而出现的服务付费。我们还没有形成自己的观点 —— 而且这也并没有特别针对人工智能产品,所以我们暂时不深入讨论这个问题。
无论最终的具体机制如何,我们坚信基于工作量的定价模式是 AI 的发展方向,当然对于企业而言也希望如此(译者注:这种模式更加符合他们对于效率和成本控制的需求),也许对于面向普通消费者的技术产品也同样适用。也许 AI 正是我们需要的突破口,让互联网上无处不在的微交易(micro-transactions)成为可能?
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Vikram Sreekanti
Co-founder & CEO of RunLLM
https://substack.com/@vsreekanti
Joseph E. Gonzalez
Professor at UC Berkeley and Co-Founder at Run LLM
https://substack.com/@generatingconversation
END
本期互动内容 🍻
❓如何更准确地衡量 AI 完成工作的价值?您认为应该考虑哪些因素?
本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。
原文链接:
评论