a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
如果你愿意花些时间调研语音 AI 行业,大概率会碰到 Olivia Moore。她主笔了两次 a16z 关于语音 AI 行业的 分析报告 ,投资的语音项目如 ElevenLabs、Sesame 等都是行业明星。
这次播客访谈中,她和 a16z 另外一位合伙人 Anish Acharya 分享了他们对语音 AI 市场的最新观察和分析。
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。参与方式见文末。
🎁彩蛋:Olivia Moore 整理了过去几年 Y Combinator 孵化的近百个 Voice Agent 项目的名单。欢迎加群时索取。
感谢 Z Potentials 编译本文并授权转载。

图片来源:a16z
Z Highlights:
(用户的)信任是要靠争取的 ,如果模型在设计时没有考虑到这一点,它们就永远无法发挥出全部潜力。
在 AI 领域,竞争优势可能体现在集成能力、自我改进的数据模式等方面,特别是对于垂直领域的语音 Agent,这些因素尤为关键。
对于消费者而言,那些成本高昂、难以获取的服务,可能是语音 Agent 在消费者市场的用武之地 ,比如心理治疗、教育科技等领域。
Steph Smith 是 a16z 播客的主持人,本次访谈为 a16z 合伙人 Anish Acharya 和 Olivia Moore 分享他们在 AI 语音领域的投资经验与行业洞察。
Why Now:AI 语音产品的历史与突破
Steph Smith: 对我来说,当我想到 AI 语音,或者至少是语音产品时,我会想到 Alexa,想到 Siri。实际上,我个人把 Siri 关掉了,我想很多人也这么做了。那么,跟我讲讲为什么会这样呢?为什么这些产品没有带来人们一直期待的 AI 语音魔力呢?
Olivia Moore: 这真的很有意思,因为我觉得 在大语言模型的世界里,语音是与 AI 交互最神奇、最吸引人的方式之一 。但可以说,我们拥有这些 AI 语音产品已经有一段时间了,它们却有点令人失望,说实话,并不那么引人入胜。我认为有几个原因,一方面,这些语音本身听起来像机器人发出的;另一方面,我觉得最关键的其实是语音背后的东西,也就是其运作的引擎。以 Siri 或 Alexa 为例,它们可能只是与苹果生态系统或亚马逊生态系统中的一组基本集成功能相连接。所以,它可能只是提取产品信息或回答一些基本问题,但它没有个性,没有真正的智能,在大多数情况下可能都没有联网。它绝不像人们现在与 AI 语音交互时所期望的那样,成为一个真正的对话伙伴,甚至在某些方面比人类还要出色。
Anish Acharya: 我觉得确实存在一些应用场景,就像你说的那样非常有限。此外,还有语音的语调、对话的来回互动以及合理的反馈等方面的问题。比如,我们会觉得它能做的事情并不多。而且还有一种“恐怖谷效应”,你会感觉自己在和一个系统或技术对话,而不是在和一个人交流,甚至连接近与人交流的感觉都没有。
Steph Smith: 听起来这种情况可能正在改变。你们发布了一份关于 AI 语音的报告。我想特别引用其中的几个观点:报告中特别指出 “语音交互将成为 AI 应用公司最强大的突破口之一”,“面向消费者时,语音交互将成为人们接触 AI 的首要方式——甚至可能演变为最主要的交互方式”。 这些都是相当大胆的论断,跟我详细讲讲吧,特别是为什么现在这个时间点如此重要?
Anish Acharya: 我认为原因之一是我们的模型首次发挥了作用。过去有很多尝试做语音相关产品的努力,但技术根本行不通。从基础设施层面就有诸多尝试,比如 Dragon Naturally Speaking。

图片来源:a16z
当时马萨诸塞州的 Dragon 系统公司宣布推出了首款价格亲民的电脑听写系统,能识别标准的自然语言,这在计算机领域是一项重大进展。
一直到 21 世纪头十年和第二个十年,还有像 Voice XML 这样的应用层面的努力,但底层技术就是不太好用。所以,我们一直没能真正探索出利用它能做些什么。如今,模型和技术都真正发挥作用了,大语言模型以及文本转语音、语音转文本技术都取得了进步。
第二点,我认为我们有机会将电话通话作为一种新的分发渠道。产品本身的能力已经具备,非常有吸引力,而且它与一种非常自然的分发渠道相结合,这一点也很有意思。
Olivia Moore: 我同意。通过文本与 ChatGPT 交流并获得良好体验是一回事,但能够通过语音与 ChatGPT 或其他大语言模型交流则完全是另一回事,因为这更上了一个台阶。 它不仅要生成你在文本中看到的内容,还要听起来像一个真实的人在和你对话。当它做到这一点时,感觉非常奇妙,几乎是一种情感上的体验。
就像 Anisha 说的,很多消费者会接触到 AI 语音,可能是因为他们主动选择,比如去和 ChatGPT 对话,或者在手机上使用带有 AI 的语言学习应用程序。但我觉得很多企业也会大力推动消费者接触,因为现在企业可以用 AI 取代电话沟通,这对他们来说效率更高、成本更低。实际上,很多消费者可能已经通过语音与 AI 进行过交互,甚至都没有意识到或察觉到这一点。
我们看到很多企业每天都在使用 AI 进行成千上万的电话沟通。但以我的经验来看,尤其是一些短电话,很多 AI 语音客服表现得非常出色,让人难以分辨。
Anish Acharya: 这很有趣,因为有人可能会说人们不想和 AI 对话,但在所有人们与 AI 交互的情况中,当 AI 打电话时表明自己身份,人们会说“哦,很酷,那就开始吧”。一旦他们感受到了类似人类对话的感觉,就会立刻忘记或者不在乎对方是 AI 了。
Steph Smith: 那我们来谈谈语音作为一个操作平台的概念。语音是人们正在构建的新操作平台,我们能否梳理一下技术突破的历程,或者说我们是如何一步步走到今天的呢?
Olivia Moore: 或许我们可以从早期 AI 电话技术的第一波浪潮说起,那就是 IVR 电话树,比如“按 1 选择销售,按 2 选择客户支持”,这出现在 20 世纪 90 年代末到 21 世纪初。后来,我们进入了真正由 AI 驱动但仍然非常有限的阶段,AI 会监听你说出特定的单词,然后根据这个单词触发特定的、预设好的工作流程或脚本。我就经常无奈地对着电话大喊“客户服务”。在这种情况下,AI 听到你说的特定单词后,就知道“好的,把电话转接到客户服务部门”。而现在,随着新一波基础设施和应用层公司的出现,AI 不再只是监听某一个特定的内容,而是试图更全面地理解你作为客户的需求。它可以访问企业的资源、互联网的资源,能够和你进行更像人类之间的对话。
Steph Smith: 即便在你们提出的“AI 2.0”框架体系内,我们似乎已经取得了显著进展。能否具体谈谈这些关键突破?比如:是否源于某些特定模型的迭代发布?基础设施架构发生了哪些本质变化?是否存在技术路径的跨越式发展?

图片来源:a16z
Olivia Moore: 我认为 我们在很多方面都取得了巨大的飞跃。可能最大、最明显的一点就是延迟问题。 去年这个时候,2 到 3 秒的延迟就算不错了,而现在很多情况下 1 秒的延迟都显得太长,甚至半秒都嫌长。这是一个巨大的突破,我认为这得益于新的模型。
Steph Smith: 那人类对话的延迟是多少呢?比如我们的对话?
Olivia Moore: 延迟肯定低于 300 毫秒,有时候甚至更短,比如当人们互相打断对话的时候。而且,我见过一些非常像人类的语音 Agent,它们能够被人类打断,也能打断人类的对话,这让它们更像是一场真正的对话。
第二点是语音的人性化程度。 再拿 Siri 或 Alexa 来说,它们的声音听起来像机器人还是像真人呢?我们投资了像 ElevenLabs 这样的公司,它们构建了非常深入的模型,有听起来很真实的预设语音,或者你也可以根据自己的使用场景设计自己的角色语音。现在,你只需输入文本描述就能创建任何语音。

图片来源:a16z
在过去三四个月里,我还注意到另一个取得显著进展的方面是情感表达。 如果你说了一些悲伤的事情,AI 回应时听起来会有点沮丧或悲伤吗?如果你说了一些令人兴奋的事情,它会加快语速、提高音调吗?最后一点,目前可能还没有专门的术语来描述,或许我们应该想一个。那就是 AI 模型的对话结构。它们知道要跟你说什么,所以没有理由出现停顿、空白或者一些小的发声习惯。但对人类听众来说,很少有人说话时能毫无停顿、没有奇怪的语调变化。像 Notebook LM 就是一个例子,它的语音听起来非常像人类,因为它加入了所有这些对 AI 来说可能像是错误,但对人类来说却像是另一个人在说话的元素。

图片来源:a16z
我们看到越来越多的公司,比如我们投资组合中的 Sesame,就在模型中引入类似的元素,这大大提升了真实感。

图片来源:a16z
嘿,看起来我们上次被打断了,想接着我们上次没说完的继续聊吗?不过我不记得我们上次在聊什么了。没关系,这种事谁都有可能遇到。我们当时在聊周末计划,我还跟你讲了我的阅读情况,处理那些文本和代码让我的思维一直保持活跃。
Anish Acharya: 后面这两点非常重要。我很喜欢关于情感表达的那一点,因为这并不是一个显而易见的探索方向, 但当你与一个在情感表达上有所投入的模型交互时,感觉就像在使用一个完全不同的产品,你真的会以一种截然不同的方式感受到其中的情感,这就是设计的精妙之处。 所以我认为这是一个非常强大的探索方向。我甚至觉得,对于 Alexa 和 Siri 来说,即使它们没有在智能和功能上投入更多,而是在情感表达上加大投入,也能在很大程度上提升消费者体验。但我感觉这些公司都没有从这个角度去思考。
创业公司几乎覆盖了 AI 语音产品的所有垂直领域
Steph Smith: 你们分享过一个很有趣的数据,就是现在 YC 公司中追求 AI 语音领域的比例。从不同批次的公司来看,这个比例有什么变化?这些处于前沿的新公司在这个领域的追求情况如何呢?

图片来源:a16z
Olivia Moore: YC 的创始人通常都很年轻,充满活力,野心勃勃,就像热追踪导弹一样,会不断调整方向,直到进入一个有趣的领域。在最近几批 YC 公司中,超过 20%到 25%的公司都在基于 AI 语音进行产品开发,这非常令人兴奋。我们甚至看到很多之前批次,最早可以追溯到 2019 年、2020 年的公司,现在也在转向 AI 语音领域。
在基础设施公司之后,我们看到的第一波 AI 语音公司大多是横向平台,允许任何企业、任何消费者构建基础的语音 Agent。比如我就构建了一个帮我打电话给车管所预约的语音 Agent,非常实用。

图片来源:a16z
而现在我们开始看到的下一波趋势是更加垂直化的发展。 这是有道理的,因为构建语音 Agent 的能力已经逐渐变得普通,连我都能用现有的模型构建一个还算不错的语音 Agent。所以现在企业开始思考,除了有语音 Agent 之外,下一步还能构建什么样的软件呢?能不能利用语音 Agent 为某个行业构建 AI 原生的垂直 SaaS 产品?能不能发明一种新的记录系统?接下来还能做什么?这样的思考让企业的发展更加聚焦和垂直化,这也是很多 YC 公司的发展方向。
Anish Acharya: 我认为这在很多方面与云计算的转型以及 10 年前最初的垂直 SaaS 浪潮相似。当时很多人批评说这些市场看起来太小,但很多公司通过开拓比表面上看起来更大的垂直 SaaS 市场,建立了大型企业,还找到了像 Fintech 这样新的盈利方式。我觉得语音在垂直领域的应用也是如此。任何每年花费 10 万到 15 万美元雇人接听电话的企业,都是语音 AI 的潜在客户,这也为垂直领域带来了非常有趣的机会。
Steph Smith: 那么,有哪些垂直领域的机会已经有真正的公司取得突破了呢?
Olivia Moore: 几乎每个垂直领域都有语音 Agent 公司,这真的很令人兴奋。

图片来源:a16z
就像 Anish 说的,当我们与大多数语音 Agent 公司交流时发现,它们不一定是在取代现有的软件,而是帮助企业削减人力成本,或者将人力重新分配到对企业更有效的工作上,也就是那些人们更愿意做的工作.
我认为语音 Agent 发展最好的领域,也就是初创公司能够实现每月百万通电话业务量的领域,是呼叫中心行业。作为企业客户,你每月可能要花费 1 万到 2 万美元,雇人帮你打电话和接电话。金融服务、医疗保健、政府部门都有大量这样的需求。但其实每个垂直领域都有这种情况,我们投资了一家叫 Happy Robot 的公司,它专门为货运行业服务。很多物流企业之前都设有呼叫中心,每月要花费数万甚至数十万美元用于电话业务。所以现在几乎每个领域都在发生这样的变化。
Anish Acharya: 我认为现在越来越多人达成共识,任何有大量电话业务且成本高昂的领域,显然都是应用 AI 的理想场景。 但一个与情感表达相关且值得探索的有趣领域是,如果你正在进行一些重要的谈判,比如离婚财产分割或者重要的企业交易,每一通电话都至关重要。这就是为什么从事这些电话沟通工作的人,比如律师,可能每小时收费数千美元。我认为在未来 12 个月内,我们就会看到 AI 在这方面的应用,而不是未来 5 年。
Olivia Moore: 已经出现了一些至少对我来说不太明显的应用案例,招聘就是其中之一。有 45 家上市的人力资源公司,它们不仅为蓝领岗位招聘,也为工程岗位招聘,业务范围很广。

图片来源:a16z
我们发现,很多求职者实际上更愿意与 AI 面试官交谈,而不是与人类招聘人员交谈。因为人类招聘人员可能一天要接 10 通电话,会感到疲惫、心情不好,而且可能对每个招聘岗位的技术细节都不够了解,无法提出有针对性的后续问题来考察求职者的专业能力。
所以这就是一个例子,你可能会认为人们被 AI 面试会感到震惊、冒犯或者不高兴,但在很多情况下,面试结束时,他们实际上比你想象的更兴奋、更积极。
Steph Smith: 这太有趣了,就像 Uber 和 Airbnb 出现的时候,有人说没人会愿意坐陌生人的车、住陌生人的房子,但结果呢,大家都接受了。
Olivia Moore: 最后人们往往更喜欢这种方式,因为它没有偏见,是同一个 AI 在评估所有人,是根据你的实际表现进行评估,而不是看面试官对你的个人喜好。
Anish Acharya: 这很有趣,因为人们总是预测消费者对新技术的接受程度,但消费者总是表现出比预期更高的接受度。 一个很好的例子就是共享位置信息,10 年前人们会说“天哪,没人会共享位置信息,这太可怕、太私人了”,但现在很多 Z 世代、Alpha 世代的人会把自己的位置信息分享给所有朋友,这有点让人难以理解,但事实就是如此。所以消费者对新技术的接受度很高。
我认为在 AI 领域,与之类似的就是陪伴和友谊的概念,虽然语音只是将其具象化的一种方式,但这个概念比语音本身要宽泛得多。人们会问,人们真的想和 AI 做朋友吗?这对我们的社会有好处吗?我觉得答案是肯定的。
我认为通过社交媒体等方式,人们的社交能力比以前更强了,这也不一定是坏事。但很多专家认为这是下一代社交媒体的观点是完全错误的,实际上它增强了我们与真实的人互动的能力。
Steph Smith: 人们很惊讶 AI 文本聊天伙伴能受到如此广泛的欢迎。在语音聊天伙伴推出后,在采用率、人们的参与方式等方面,有没有什么令人惊讶的地方呢?
Olivia Moore: 有一些以语音优先的陪伴平台,比如 Character.AI 增加了语音模式,在测试阶段就获得了极高的使用率。实际上,很多人会使用像 Inflection AI 的 Pi APP 或者 ChatGPT 的语音模式来作为陪伴工具。你可能因为开车或者双手不方便,想尝试一下这种方式,觉得这样更方便。很多时候,AI 甚至比你最好的朋友表现得更像朋友。 如果你给朋友打电话,他们可能在忙、在工作或者心情不好,不一定会认真听你说的每一句话,也不一定会给予你感同身受、深思熟虑的回应。但 AI 会 100%做到这些,而且它有更多的专业知识、更多的信息资源。随着模型的不断改进,这种体验只会越来越好,因为我们现在还处于早期阶段。很多人都惊讶于和 AI 聊天竟然感觉如此友好。
Anish Acharya: 我认为还有一个值得考虑的有趣领域是语音的被动使用场景。 比如在会议或对话中,你可以让 AI 被动倾听,然后为你总结思路、提供笔记和反馈。这种事情你可能永远不会要求另一个人去做,但 AI 可以做到。这似乎是一个更适合技术实现,而非人力完成的领域,我们才刚刚看到这个领域的开端。
Steph Smith: 你们两人都提到了一个观点,就是与人们通常认为的技术取代人类不同,AI 更多的是起到增强的作用。你也提到了这样的场景,比如有些公司只有朝九晚五的前台接待人员,那下班后或者全天 24 小时的服务怎么办呢?能谈谈你是如何看待这些 AI 公司切入市场、开展业务的吗?
Olivia Moore: 很多企业,无论是小企业还是大企业,出于各种原因,都不太愿意把所有的电话沟通和客户交互工作都交给 AI。所以我们经常看到 语音 agent 会从一些对企业来说投资回报率非常明显的特定业务入手,然后随着获得企业的信任,再逐步拓展业务范围。 其中最明显、最容易入手的就是下班后或话务高峰期的电话转接。如果你是一家小企业,预约业务可能是决定你成败的关键,让 AI 来处理预约至少可以获取电话号码和信息,然后回电,甚至还可能直接帮你预约好完整的业务,为第二天的工作做好准备,这非常棒。
除此之外,我们还看到很多公司采用了一些巧妙的方法。有些电话在当下打出去其实并不合理,比如信用卡公司给客户寄了信用卡,但客户一直没有激活,在一到三天后就打电话催促客户激活真的有意义吗?
我见过一些语音 Agent 在这类业务上做得非常成功。还有所有的后台工作,这些工作不直接面向客户,敏感度较低。比如在医生办公室,医生可能每天要花很多时间打电话给药房、保险公司,这些时间本可以用来治疗病人或者让诊所运营得更好。这些电话业务非常适合语音 Agent 来处理。
也许最有趣的一点,也是我们经常讨论的一点是,有很多类型的电话沟通或交互工作,人类员工并没有动力把它们做好。比如员工可能需要进行推销,但这可能会让他们感到尴尬,而且又没有额外的提成,所以他们 80%的情况下都会跳过这个环节。但 AI 每次都会去做,而且会很积极地去做。如果被拒绝了,它就会直接去处理下一通电话,同时处理成百通电话也不在话下。
Anish Acharya: AI 总是那么积极热情,而且在谈判中也不会轻易让步,这太神奇了。我认为对于很多使用这些产品的客户来说,神奇的时刻在于他们看到产品真的带来了改善。 就像在招聘场景中,它提升了求职者的体验和员工的体验。就像 Olivia 所说,对于求职者而言,他们很高兴能有这样一个全天候、无偏见的系统。反过来,对于员工来说,他们也很高兴不用再打这些招聘电话,毕竟其中很多电话都是打给那些他们以后再也不会联系的人。
所以,就是这些高 NPS(净推荐值)的成果。很多客户直观的想法是,虽然价格降低了,但可能 NPS 也会变差。但在很多情况下,实际是价格降低了,NPS 却提高了。
Steph Smith: 你们还提到了一些特点,为了更明确地说明在哪些方面 AI 语音 Agent 取得了成功,哪些方面没有,能详细讲讲吗?
Olivia Moore: 我觉得最容易获得的早期成果,应该是那些已经在呼叫中心投入大量资金的企业。因为他们在这方面已经投入很多,而且呼叫中心一直存在人员流动率高、管理困难的问题。老实说,大多数企业如果可以的话,都很想摆脱这些问题。现在模型已经很不错了,而且每个月都在不断优化。
我认为 当通话过程和结果相对固定时,企业会更放心使用 AI 语音 Agent。 例如,语音 Agent 在通话前就明确知道目标是为某人预约,这种情况就比较容易处理;但如果通话目标很模糊,比如很难衡量通话是否成功,那就比较难办。我们看到过一些 AI 治疗语音 Agent,它们很厉害,而且还在不断改进。但在这种情况下,语音 Agent 很难在通话结束时判断自己是否做得好,企业也很难判断是否达到了目标。
这又回到了通话过程和结果是否固定这个问题上。 即使语音 Agent 的表现可能比人工 Agent 更好,但大多数企业也不想为此支付太多费用,因为它是 AI,企业把它当作削减成本的工具。 在一些垂直领域,如果能以比之前低 70%的价格提供服务给客户,这是非常有吸引力的。
还有一个主要因素是,在某些垂直领域,企业必须接听电话,但对于终端消费者来说,偶尔出点小错也没关系。比如餐厅订餐和医疗诊断,这两者的紧急程度和容错率就有很大差别。
Anish Acharya: 我认为 AI 的能力提升速度会比我们想象的更快。以语言模型为例,它们容易出现幻觉现象。在某些对话场景,比如治疗场景中,幻觉可能会有一定帮助;但在另一些场景,比如涉及价格和准确性的谈判场景中,幻觉可能就没什么帮助。
现在开始考虑将语音模型和推理模型结合,这样就能将幻觉限制在企业需要的范围内,而不是通过大量系统来控制它。
Steph Smith: 由于在某些情况下,我们用 AI 取代了之前由人类完成的工作,那么在定价方面是怎么考虑的呢?有什么经验吗?现在大多数公司是沿用之前的定价模式,还是出现了新的定价模式呢?
Olivia Moore: 目前这个阶段还很早,定价模式每个月都在变化。可以说,“我应该如何定价?”、“这个领域的其他公司是怎么定价的?”是我们从企业那里听到的最多的问题。
我们看到了一些开始发挥作用,或者人们正在尝试的定价模式。最常见的就是按分钟计费,就像计算人工每小时的费用一样,计算语音 Agent 的费用。但这里面也有一些问题。一方面,很多客户都知道底层技术成本在降低,他们会质疑为什么成本降低了,自己还需要每分钟支付 30 美分,怀疑企业把成本降低的部分都变成了利润。而且随着这个领域竞争加剧,新进入的企业很容易就会说“我每分钟只收 5 美分”,通过低价竞争来抢占市场。
另一方面,按分钟计费的模式把平台的价值完全与通话时长挂钩,然而通话业务正逐渐变得同质化,相比之下,围绕通话构建的其他软件才更有价值。
因此,我们看到很多公司从单纯的按分钟计费,转变为收取某种平台费用,可能是按月收费,也可能是按模块收费。客户除了使用语音 Agent,还会为其他相关服务付费。
我们也看到了一些更有创意的定价尝试。招聘领域就是一个很好的例子,在这种情况下,语音 Agent 辅助人工工作,就可以 按照使用语音 Agent 的人工数量收费,类似于按席位收费的 SaaS 模式。 比如,一个人工招聘人员每周使用语音 Agent 可能节省 5 到 10 个小时的面试时间,那么就可以向每个招聘人员每月收取 500 到 1000 美元的费用。
最后一种,也是 最具实验性的定价模式是基于结果收费。目前这在整个 AI 领域都是一个值得探讨的方向。 比如每成功预约一次收费 5 美元,或者按照预约价值的 5%收费。显然,这种定价模式将产品价值与为企业创造的价值最直接地联系在一起。但我们也很关注这种模式在企业中的推广情况,因为很多企业可能不太愿意采用这种支付结构,尤其是当他们不确定业务量的时候。
Steph Smith: 很有意思,看起来最后这种定价模式开始有了发展的趋势,但还处于初期阶段。
Olivia Moore: 我认为这和 SaaS 领域的情况类似,不是所有公司的定价都一样,这取决于终端客户、垂直领域以及提供的功能。我感觉未来会出现按通话使用量计费,再结合某种更广泛的平台收费、按结果收费或者按席位收费的混合定价模式,不会只采用一种模式,不过目前还处于非常早期的阶段。
Steph Smith: 没错,既然还处于早期阶段,那你对 AI 语音领域的 MaaS 有什么看法呢?就像你提到的,这不仅适用于语音领域,在整个 AI 生态系统中都是如此。你认为在这个领域,MaaS 可能会从哪些方面产生呢?
Olivia Moore: 我认为 MaaS 可能体现在几个方面。一方面是集成能力。这就是为什么我们对这些更专注于垂直领域的语音 Agent 特别感兴趣。让 OpenAI 去和每一个长尾领域的软件集成是不现实的,比如运输管理软件,物流公司需要用这些软件来管理卡车车队,但 OpenAI 的语音 Agent 产品很难做到与它们全部集成。
同样,OpenAI 和其他公司目前的交互系统比较固定,很多传统企业无法按照自己的需求来使用。对我们来说,特别是对于企业客户,最有吸引力的竞争优势之一是自我改进的数据模式。
假设你要为一家大型银行接管电话业务,银行对这些电话的处理有特定要求,不可能在第一天接入语音 Agent 就能达到 100%的净推荐值。这需要数月的培训通话来不断优化。作为语音 Agent 供应商,如果能尽早进入市场,就能获得这些特殊的专有数据,这会让你比其他后来者领先几个月,因为他们需要重新经历整个入职、集成和培训的过程。
所以很多专注于垂直领域的语音公司希望能够利用每个客户的通话数据,或者对多个客户的数据进行匿名化处理,来不断优化模型。随着时间的推移,相比那些横向发展的公司,他们就能逐渐建立起竞争优势。
Steph Smith: 如果是这样的话,你认为 AI 语音公司会像上一代公司比如 Uber 那样,竞相成为市场先行者吗?我们之前讨论过像 Uber 这样的公司,他们需要迅速获取客户,可能要投入大量资金,但之后可以获得回报。
Anish Acharya: 虽然在 AI 语音领域赢得市场的成本肯定比 Uber 低,但确实也需要像 Ben 多次提到的那样,既要打造出人们需要的产品,又要去占领市场,从没有市场份额到获得全部市场份额。所以竞争非常激烈,这就是为什么定价在当前的生态系统中是一个如此重要的话题。这肯定会是一场激烈的竞争。
就像 Olivia 说的,在语音领域肯定会出现一些非常有趣的、基于语音特性的竞争优势。比如可以想象,对于我们公司来说,有一个语音智能助手,它能像 Mark 那样进行公司业务的介绍,像 Martin 那样进行谈判,还能像 Olivia 那样分析市场形势。语音领域有很多专业化的机会,这些机会与语音特性紧密相关。另一方面,集成能力、网络效应、规模效应等传统的竞争优势因素也会发挥作用。
Olivia Moore: 而且我认为进入市场的策略会因垂直领域而异。比如餐厅、家政服务、水疗中心或美甲沙龙等行业,参与者众多且分散。在这些领域,数据掌握在各个商家手中;而银行或金融机构这类行业,少数几家大公司占据主导地位。如果要让银行这类机构采用你的语音 Agent 产品,可能需要 6 到 9 个月的时间;而对于面向餐厅、家政服务等行业的语音 Agent 供应商来说,可能更关注在相同时间内获取上千个客户。
Anish Acharya: 我还认为一个有趣的现象是人们会和 AI 建立起个人关系。比如,你和摩根大通并没有什么个人关系,你更多的是和在这家公司工作的理财经理有联系。这就是为什么很多理财经理离开大平台时,会带走他们的客户。房地产经纪人也是一个很好的例子。在某些情况下,AI 可能会和人建立起深厚的个人联系,而人们也希望维持这种联系,这就形成了一种竞争优势。
B2C 市场:创业公司绕开行业巨头的方向
Steph Smith: 说得很对。到目前为止,我们讨论了很多 B2B 的应用场景,但这也引出了 B2C 的应用场景。能谈谈在这方面你看到了什么吗?比如 B2B 和 B2C 应用场景有哪些不同?
Olivia Moore: 我认为 B2B 的语音 Agent 比 B2C 的语音 Agent 应用场景更明显,因为对于企业来说,使用语音 Agent 可以直接取代现有的电话人工服务成本。对于消费者而言,可能那些成本高昂、难以获取的服务,现在可以由语音 Agent 来提供,这就是语音 Agent 在 B2C 市场的用武之地。 比如心理治疗和心理健康支持,教育科技领域也是一个大方向,像语言学习、教孩子阅读或做数学题,很多家长在这些方面都很头疼。还有辅导如何进行艰难的私人对话等领域,我们都看到了语音 Agent 的广泛应用。

图片来源:a16z
在面向消费者的语音 Agent 方面,一个主要的问题是,当 ChatGPT 或者很快会出现的 Claude 语音等产品,已经能很好地处理很多基本的消费者应用场景时,哪些垂直领域或应用场景还需要专门的模型或特殊的交互界面来提供更大的价值呢?目前最好的模型可能掌握在 OpenAI 手中,而不是任何独立的语音 Agent 公司都能通过 API 使用。那些最大、最成功的消费类公司往往出人意料,而且很难预测。所以我觉得,虽然现在很难预测面向消费者的语音 Agent 在哪些方面会取得成功,但当我们看到成功案例时,肯定会觉得非常明显,而且很可能会来自一家大型公司。
Steph Smith: 你认为像谷歌、苹果这样的行业巨头,在占领 B2C 市场方面有多大潜力呢?我们参与的那些 YC 公司或其他公司,真的能在竞争中脱颖而出吗?
Anish Acharya: 我对此有一些看法。比如,当你家里既有谷歌 Home 智能音箱,口袋里又有 ChatGPT 时,你就会发现巨头们落后了太多。我的孩子想让谷歌 Home 像 ChatGPT 那样给他们讲故事,但谷歌 Home 完全做不到。我的孩子最早接触到的、至少是深入接触的技术是通过模型,而不是搜索引擎。很多人在日常生活中都有类似的体验,那就是行业巨头在这个领域已经落后了很多。
其次,我们也讨论过很多次,人类体验中有很多不太舒服或者不太合适的方面,而行业巨头由于自身结构的原因,永远不会去触及这些话题。大公司有各种委员会、律师等,很难推出有独特观点的产品,至少很难像很多语音模型所需要的那样有鲜明的观点。而初创公司在这方面则没有问题。 当然,也有像 Grok 这样的反例,但我认为这更多是由创始人主导的大公司才能做到的,传统巨头很难做到。
Olivia Moore: 我认为在某些通话业务已经或即将同质化的领域,用户体验的重要性相对较低,谷歌这类公司可能会在这些领域发力。比如他们最近推出了一项功能,可以打电话给餐厅查询座位情况,然后再反馈给用户。如果能在谷歌搜索上添加这样一个按钮,通过他们来实现这项功能是有意义的。但他们会打造出第一个能在所有产品和信息源上使用的 AI 原生个人助手吗?我觉得不太可能。我认为行业巨头最终涉足的所有通话业务,虽然可能会有一定的业务量,但不太可能催生出大型且令人兴奋的新初创公司。
Anish Acharya: 他们会利用新技术来巩固自己在传统优势领域的主导地位,这没问题。但在所有新的领域,他们可能根本无法竞争,至少从历史经验来看是这样的。而且我觉得有一个很重要的问题是,如果模型成为互联网的新前端,搜索是否还具有重要意义呢?他们还能继续在一个对下一代消费者和企业来说逐渐失去相关性的领域保持主导地位吗?
逗笑用户的时间:AI 语音产品的新 KPI
Steph Smith: 你提到的“有鲜明观点”这个概念非常重要。我认为语音作为一个平台,我们直观地认为它需要比其他平台更有鲜明观点,因为有趣的人都有自己的观点。我甚至在想,虽然可能有点夸张,像搜索或其他应用程序的一些传统 KPI,对于语音来说可能并不适用。你可以想象,对于语音模型来说,“逗笑用户的时间”可能是一个神奇的指标,也就是看它能多快让用户笑出来或者哭出来,不是刻意为之,而是真正让用户与模型深度互动。这在文本交互中是不太可能出现的。
Olivia Moore: 所以我觉得普通消费者会认为 Siri 甚至都无法与 ChatGPT 的语音模式相媲美,因为用户在使用它们时的感受截然不同。
Anish Acharya: 我认为还有一个有趣的点是,在某些文化中,有点爱抬杠、有点讽刺的交流方式反而更受欢迎,人们认为这样才能建立信任、更好地与人互动。比如英国文化,甚至美国东海岸文化在一定程度上也是这样。几周前我们还开玩笑说,需要 ChatGPT 推出东海岸语音模式,那种风格非常简洁,不喜欢和愚蠢的人打交道。
Steph Smith: 它会直接说“不”。想想你的朋友,虽然有些人可能有那种随叫随到的朋友,但大多数人的朋友之间都会有一些调侃,会有自己的观点。
Olivia Moore: 这其实就是我们在寻找的语音陪伴产品或者面向消费者的语音 Agent 的特点。 如果建立关系太容易,如果它们总是对你唯命是从,不给你坦诚的反馈,很快就会让人觉得乏味。作为消费者,一直有个“应声虫”跟着你并没有什么价值。所以,我们对那些在构建语音 Agent 时,赋予其独特角色和个性,让用户与之建立情感联系的创业者非常感兴趣。 这与我们过去使用的语音 Agent 不同,过去用户只是把它们当作执行基本任务的机器。
Anish Acharya: 没错,信任是要靠争取的,如果模型在设计时没有考虑到这一点,它们就永远无法发挥出全部潜力。
Steph Smith: 说得太好了。在我们朝着打造这类产品努力的过程中,对于未来的发展、你感到兴奋的方向,以及你希望创业者关注的重点,有什么想和听众分享的吗?
Olivia Moore: 我觉得有一件事非常有趣,这可能只是标准的科技平台变革,但我们看到一些刚进入某个行业几个月的创业者,就能深入研究并打造出最具影响力、高增长和高转折点的产品。这是因为游戏规则正在改变,现在能打造出的产品的能力和影响力,是我们以往从未见过的。在很多方面,快速推出产品成为了一种竞争优势。你可以在后续逐步积累行业专业知识、人脉、知识库和资源等其他方面的能力。所以,那些进入行业只有 6 个月、1 年甚至更短时间,但能迅速明确自己要打造什么产品,并且快速开发、测试、获取反馈,然后不断改进的创业者,是我们最感兴趣的。
Anish Acharya: 所以有两点想分享。第一,如果你正在这个领域进行产品开发,欢迎和我们交流,项目越独特越好。第二,我们和很多 AI 创业者讨论过一个思路,就是思考你产品的“超级豪华版”是什么样的。如果你现在向消费者每月收费 20 美元或 100 美元,那么每月收费 1000 美元甚至 10000 美元的产品会是什么样的呢?在语音领域也是如此。我们确实希望复制一些高流量的应用场景,用语音 AI 模型来替代人工,但企业中那些最敏感、最有价值的对话呢?你能针对这些场景开发产品吗?为这些场景提供服务你会收取多少费用呢?也许每次交互收费 10 万美元有点夸张,但作为产品设计的一种思考方式,不妨这样想想。这是一个很有意思的思考方向,希望能给大家带来启发。
Steph Smith: 非常感谢你们两位的分享。
原文:Why AI Voice Feels More Human Than Everhttps://www.youtube.com/watch?v=-_qYRdEcNiE&ab_channel=a16z
编译:Dean Liu

更多 Voice Agent 学习笔记:
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

评论