WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

作者：声网

2024-11-27
浙江
本文字数：5002 字
阅读完需：约 16 分钟

WebRTC 的早期创建者之一，Fixie.ai 联合创始人兼 CTO Justin Uberti 近日宣布加入 OpenAI，领导实时 AI （Real-Time AI）项目的开发。

Uberti 在 2011 年于 Google 参与创建并领导了 WebRTC 项目，并推动其成为 W3C 和 IETF 标准。

从最早参与 AOL Instant Messenger（AIM）开始，他见证了人与人之间沟通方式从文字聊天到音视频聊天的演变。现在，他正在积极推动人与 AI 的交互从文本框走向更自然的语音对话。

2023 年完成种子轮融资，Fixie.ai 初期专注于 AI Agent 搭建平台，后来转向 Uberti 更为擅长的实时 AI 领域，先后推出了虚拟角色语音对话网站 AI.TOWN、大模型速度评测平台 thefastest.ai，以及最近发布的开源语音模型 Ultravox（编者注：我们刚翻译了 Ultravox 提出的「人类级别语音 AI 路线图」）。

11 月 26 日 Uberti 宣布离开 Fixie.ai，加入 OpenAI。

我们找到了他今年 6 月以 Fixie.ai 联创身份参与播客 AI Inside 的节目，摘录了部分精彩对话，希望能帮助大家理解 Justin Uberti 对语音 AI 未来的思考。

语音交互的未来：对话 Justin Uberti

The Future of Voice Interaction (with Justin Uberti)

主播：Jason Howell、Jeff Jarvis 嘉宾：Justin Uberti 注：为便于阅读，本文内容已作精简，并非完整对话。你可以访问原文收听完整版播客。

从文本消息到语音 AI 交互

Jason Howell: Justin，欢迎！我从你在 Google 时期就关注你的工作，你领导了 WebRTC、Hangouts Video、Duo 和 Stadia 等项目，之后加入 Clubhouse，现在是 Fixie.ai 联合创始人兼 CTO。你丰富的 AI 经验是如何引领你创建 Fixie 和 AI Town 的？

Justin Uberti: 我一直对语音/视频对话和纯文本对话的差异很感兴趣。我早期参与了 AOL Instant Messenger，它能即时发送消息，这在当时很神奇。后来我们添加了音视频功能，因为它们承载的信息更丰富。现在，Instagram 和 TikTok 等应用都以视频为中心，因为它更具吸引力。Clubhouse 也证明了语音的魅力，它能传达文本无法表达的情感。我认为与 AI 的交互也应如此。 ChatGPT 很强大，但它像个新型命令行工具——输入文本，输出文本，很多人不知如何有效使用它。

Jason Howell: 的确如此。我刚接触 AI 时，虽然知道它潜力巨大，但不知从何入手，直到我强迫自己用它解决实际问题。

Justin Uberti: 与电脑对话对很多人仍是挑战。 处理重要事情时，人们更倾向于面对面或通过语音/视频沟通。 疫情期间，Google Meet 等工具的普及也印证了这一点。我们也应期待 AI 以更自然的方式与我们互动。语音是人类与生俱来的能力，它比文字更丰富。我们正处于 AI 能够理解和运用语音，并最终可能结合视觉进行多模态交互的时代。在 Fixie，我们正构建工具，让 AI 更自然地使用语音交互。AI Town 就是这样一个平台，你可以在那里通过语音与 AI 交流。

与 AI 对话：「我们正回归对话式社会」

Jason Howell: 关于语音 AI，我想到的是视频会议，你在 Hangouts Video 和 Duo 经验丰富。现在聊天应用中的 AI 就像视频会议中加入了智能体。随着语音 AI 越来越像人类，它能解析对话并成为助手，AI 语音成为我们在线对话一部分指日可待。或许这已发生，只是我未注意到。

Justin Uberti: 的确如此。语音部分的发展可能比助手部分更快。我们希望助手能代表我们行动，但目前的 AI 缺乏内部审查机制，难以判断正确行动。我们不放心让 AI 代表我们做不可逆转的事，例如发邮件或安排日程。但 AI 在对话中不易出错。大型语言模型擅长对话，对话也具有自我修复特性。

Jeff Jarvis: 我写过一本书 The Gutenberg Parenthesis，探讨印刷和文本的时代。在此之前，社会是对话式的，后来被文本主导。我认为我们正回归对话式社会。广播出现时，报纸坚称耳朵不是学习的好方法，必须通过眼睛。你认为人们是否需要重新学习对话？

Justin Uberti: 人们知道如何与亲友交谈。与电脑交谈可能需要适应，但不难。有人曾说人们不想与电脑交谈，我说你每天都在和电脑交谈数小时，他说是用手指。我说，想象一下，另一端是 AI。 几年后，你会以同样方式看待与 AI 的对话，就像 Zoom 通话一样。 语音比文字传递的信息更多。

Jeff Jarvis: GPT-4o 和 Scarlett Johansson 事件后（编者注：OpenAI 的 GPT-4o 语音助手因使用与电影 Her 演员 Scarlett Johansson 声音相似的合成语音引发争议），关于拟人化，让人们相信他们在与人类交谈是你的目标吗？你想创建什么样的伦理框架？

Justin Uberti: 我们认为这波浪潮即将到来，但正确的实验方式是在低风险环境中进行，主要用于闲聊和娱乐，就像我们在 AI Town 所做的。我们创建了一个环境，你可以在那里与不同的 AI 角色交谈，它们有自己的生活，会发布社交媒体帖子，你可以给他们发短信，也可以语音通话。

Jeff Jarvis: 你是这个领域的先驱，有机会定义这项技术的正确和错误使用方式。你认为这项技术的坏处是什么？

Justin Uberti: 一些明显的坏处包括克隆声音用于欺诈。业内领先的语音提供商正努力防止这种情况，例如对语音加水印，征得同意，甚至要求用户录制视频并出示身份证明。 另一个挑战是，我们曾经相信出版的文本是真实的，但现在不是了。生成式 AI 也让我们无法相信照片一定是真实的。语音也面临同样的问题。

Jeff Jarvis: 印刷术刚出现时，人们也不信任它，因为它缺乏来源。后来我们建立了机构来验证真实性。我认为这里的机会是，你的 AI 来自哪里？你的声音来自哪里？它的来源、知识、行为以及是谁把它带给你的？这些都是重要的人类问题，也是机遇。

人类为何与虚拟角色对话？以及「幻觉」的妙用

Jason Howell: 你提到了 AI Town，它就像与虚拟或真实角色进行语音对话，你也可以通过文字与他们交流。它是一个低风险的体验环境。你在用户与网站上的角色互动时，看到了哪些让你感到惊讶的事情？

Justin Uberti: 我们最初创建了 HiSanta.ai，让人们与圣诞老人和精灵语音互动。我们本以为这只是一个测试，但需求远超预期。我们意识到，人们很喜欢与虚构角色，特别是那些耳熟能详的角色交谈。圣诞老人就是一个非常受欢迎的例子。我们还创造了一个「坏圣诞老人」，他也很受欢迎。我们希望人们能与 AI 角色进行有趣对话，并发现人们真正感兴趣的话题。事实证明，虚构角色是乐趣和有趣对话的丰富来源。

Jeff Jarvis: 创建一个虚构角色需要做些什么？你需要多深入的描述？

Justin Uberti:我们有一个优化过的流程，你甚至可以通过语音完成。系统会问你几个问题，帮助你构建角色的背景故事。大型语言模型非常擅长角色扮演。你告诉它你的身份、兴趣等等，它就会顺着你的描述进行下去。 我们通常认为大型语言模型的「幻觉」不好，但在这种虚构的 AI 角色场景中，「幻觉」反而是好事，因为它可以补充角色个性。

Jason Howell: 你提到了「幻觉」，我认为它是否负面取决于具体情况。如果追求事实，那么「幻觉」不好。但如果追求创造力，「幻觉」则可能很棒。

Jeff Jarvis: 《卫报》最近刊登了一篇文章，认为 AI 可以治愈人类的孤独感。你的目标有这么高尚吗？或者只是为了娱乐？

Justin Uberti: 这是一个相当崇高的目标。我们发现 AI Town 的一个用例是帮助英语作为第二语言的人练习口语。他们可以在一个没有评判的环境中与 AI 角色交谈，甚至可以请角色指出错误。

Jason Howell: 这很有意义。因为你不必担心被评判，你知道你交谈的对象是 AI。

Justin Uberti: 不被评判很重要。我认为这可以帮助人们建立自信。

低延迟和语气词的作用

Jason Howell: 在语音到语音模型的开发过程中，你们遇到了哪些当时没有预料到的挑战？

Justin Uberti: 挑战有很多。人耳对声音非常敏感，很容易分辨出声音的自然度。 AI 的响应速度至关重要。 在 Duo、Google Meet 等产品中，我们的延迟标准是 250 毫秒。WebRTC 协议本身的设计就考虑到了低延迟的需求。

Justin Uberti: 人类对话的节奏非常快。如果延迟过高，就会出现一方打断另一方，或者出现长时间的停顿，这会影响对话的流畅性。 超过 600 毫秒的延迟，听起来就会像是故意停顿的。所以，低延迟不仅仅是为了让对话更流畅，它实际上会影响对话的语义理解。 我们使用的 WebRTC 技术专注于低延迟，而且我认为整个 AI 生态系统都需要做出一些调整，来适应低延迟的语音交互。

Jeff Jarvis: 你们一定对人类对话的本质做了很多研究吧。有什么有趣的发现可以分享吗？

Justin Uberti: 像「嗯」、「呃」这样的语气词，通常被认为是不规范的、应该避免的。但实际上，它们是对话流程中的一部分，用来控制话语权的。

Jason Howell: 这很有意思。我做播客的时候经常用 AI 生成文字稿，「嗯」、「呃」这些语气词在文字稿和实际听到的效果完全不同。听的时候，它们可以连接上下文，让对话更流畅。但在文字里，它们会显得说话的人表达不清。

Jeff Jarvis: 我记得我第一次接受媒体采访的时候，制作人告诉我他们会对我的话进行大量的剪辑。他特意告诉我这一点，是因为他知道我会经常在一个句子中间重新开始，而他们会把这些重新开始的部分剪掉。他们还做过一期节目，把所有人的「嗯」和「呃」都去掉了，这样显得嘉宾更聪明。这就引出一个新闻伦理的问题：你是应该展现一个人的真实状态，还是出于某种「礼貌」，在文字稿里去掉这些语气词？我们如何通过一个人的说话方式来判断他的智力水平，这真是一个耐人寻味的问题。

Justin Uberti: 即兴讲话的时候，很难组织出非常严谨的段落。你在开口之前，并不会完全想好要说什么。你在报纸上看到的引语，通常都经过了润色，去掉了所有的错误和语气词。现在，对视频或音频内容进行同样的处理，也会产生类似的效果。但我认为，这样做会扭曲说话者的真实形象。

「我们正处于第二代语音 AI 发展的时代」

Jeff Jarvis: 你们会为 AI 添加这些人类语气词吗？比如英国人常用的「sort of」，美国人常用的「like」或「you know」？你们会在 AI 的输出中加入这些吗？

Justin Uberti: 这可以看作是语音技术从第一代到第二代的演进。 OpenAI 的 GPT-4o 语音模式可以被视为第二代。第一代是语音转文本，然后通过 LLM 处理，最后再文本转语音。在这个过程中，没有语气词，因为大型语言模型没有接受过这方面的训练。

Justin Uberti: 第二代模型则直接处理语音输入和输出，没有中间的文本转换步骤。在这种模式下，训练数据中包含了语气词等对话特征。这些特征最终会成为语音 AI 的一部分，因为要真正参与对话，就需要能够使用这些语气词。虽然 AI 不需要像人类一样停顿思考，但在某些情况下，例如检索信息时，AI 的响应速度可能会变慢。这时，使用语气词可以让对话更自然流畅，避免尴尬的停顿。

Jason Howell: 不过，我也能预见到很多人会因此批评 AI，认为它没必要使用语气词。我们人类需要，但 AI 不需要。但我认为，如果我们能克服这种观念，或许可以让对话感觉更自然。

Justin Uberti: 我们正处于第二代语音 AI 发展的时代， 我认为我们终将找到将人类对话的细微特征映射到 AI 交互中的方法。 这将会非常有趣。在不久的将来，你可能闭上眼睛，都无法分辨是在与人还是与 AI 交谈。我认为这将极大地促进像 ChatGPT 这样的技术的发展，并吸引更广泛的用户，因为你只需要与它交谈即可，非常便捷。

Jason Howell: 除了 AI Town，Fixie 目前还有哪些其他项目？

Justin Uberti: 我们最近开源了一个名为 Ultravox.ai 的语音 AI 模型，这是一个非常令人兴奋的项目。它基于 Meta 的 Llama 3，并进行了多模态扩展，能够理解语音并进行多模态交互，可以应用于像 AI Town 这样的场景，实现更快速、更自然的语音交互体验。我们希望通过开源这个模型，推动语音 AI 技术的快速发展，让更多人受益。此外，我们还创建了 thefastest.ai 排行榜，用于跟踪哪些大规模语言模型的速度最快，以便在低延迟的语音交互场景中使用。我们非常关注速度，因为低延迟是实现流畅自然语音交互的关键。

Jason Howell: 真是非常精彩的工作！Justin，感谢你今天与我们分享这些宝贵的见解。

原文：https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti

编译：傅丰元社区技术

顾问：付则宇

RTE 开发者社区持续关注 Voice AI 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣，也期待和更多开发者交流（每个月都有线上/线下 meetup，以及学习笔记分享），欢迎加入我们的社区微信群，一同探索人和 AI 的实时互动新范式。

加入我们：加微信 Creators2022，备注身份（你的公司或项目）和来意「加群」，备注完整者优先加群。