写点什么

在 RTE2025 大会,我看到了 AI 语音如何让机器学会「与人相处」丨社区来稿

作者:声网
  • 2025-11-19
    浙江
  • 本文字数:2646 字

    阅读完需:约 9 分钟

10 月 31 日,我们受 RTE 开发者社区邀请参加了 RTE2025 大会。


这不是寻常的科技展会,没有冰冷的技术参数展示,取而代之的是 AI 与人类自然交流的场景。


今年大会以「AI 有声」为主题,这巧妙地道出了行业的变化——AI 正在从无声的工具变为有声的伙伴。 从能贴心对话的毛绒玩具,到随时陪伴的 AI 语伴,从智能调研助手到趣味互动桌游,对话式 AI 已不再是科幻构想,而是触手可及、富有情感的日常存在。


这股“AI 有声”的浪潮背后,是怎样的技术基石在支撑?一个优秀的语音智能体,从灵光一现的 Demo 到稳定可靠的产品,需要跨越哪些鸿沟?


为了探寻这些答案,我们不仅深入了专为语音智能体开发者打造的 “RTE101 技术专场” ,系统梳理从语音前端处理到交互逻辑的核心技术栈;也穿梭于各大展台,亲身体验了如** Chikka.ai **这样的智能调研工具、ValidFlow.AI 的用户洞察平台以及 LookeeAI 教育硬件等前沿应用。


今天,我们来分享一下我们的所见所得、所思所想。


101 技术专场:语音智能体开发者的第一课

这场为语音智能体开发者设计的“第一课”从最底层的信号处理一直讲到上层的应用实践,系统性地剖析了一个语音智能体从 Demo 到产品化需要跨越的鸿沟。


音频 3A 处理(AEC、ANS、AGC)是对话式 AI 的基石。 声网音频算法工程师林子毅现场演示了回声消除的重要性:当关闭 AEC 功能时,AI 设备会陷入“自问自答”的循环——说出回答后又被自己的声音触发,不断重复响应,根本无法正常交流。而降噪技术则让 AI 在嘈杂的机场环境中也能准确识别主要说话人的指令。


语音活动检测(VAD)决定交互体验。 传统的 VAD 基于声带振动检测,但对于发轻音或辅音时无效。声网开源的 TEN VAD 基于深度学习,能更准确地检测语音起止点,将端到端响应延迟控制在毫秒级,避免了“说话被打断”或“说完等几秒没反应”的糟糕体验。


让我印象比较深刻的是 关于对话式 AI 架构的讨论。 目前主流的三段式架构将 ASR、大语言模型、TTS 串联,优点是各模块可独立优化,技术成熟度高。但端到端语音大模型直接将语音输入映射为语音输出,减少了信息损失,理论上更接近人类对话方式。


三段式架构灵活可控,但累积延迟较高;端到端模型响应更快,但训练数据和成本要求极高,且可控性较差。


在探讨对话式 AI 中传输音视频和数据的最佳协议选择 时,声网生成式 AI 产品负责人毛玉杰从产品角度指出,技术决策的出发点应该是用户体验而非技术本身。“我们总是在讨论协议的好坏,但核心是这个协议能给用户带来什么体验”。他建议开发者采用混合架构:WebSocket 用于信令控制,WebRTC 用于媒体传输,各取所长。


此外,还分享了工具调用与 MCP 实践、对话式 AI 体验评估等内容。如果大家感兴趣的话,我们可以单独出一期“101 技术专场”的内容完整回顾,欢迎在评论区留言

展会亮点:三款产品背后的 AI 语音革新

(1)Chikka.ai:让用户调研会“说话”


在活动现场展台,我们遇到了这款专注于客户访谈的 AI 平台。Chikka.ai 基于 AI 语音代理 Ava,能与受访者进行自然对话,快速收集分析语音反馈。


最吸引我的功能是它支持多语言访谈,能同时进行数百次对话。想象一下,企业可以在短时间内完成大规模的用户调研,而且不是通过冰冷的问卷,而是模拟专业访谈者的对话交流。平台还提供个性化访谈计划、自动转录与见解提取,大大缩短了从收集到洞察的周期。



(2)ValidFlow.AI:从数据到洞察的智能升级


相类似的,AI 用户洞察应用 ValidFlow.AI 的展台吸引了不同的人群。


与 Chikka.ai 侧重于对话式数据收集不同,ValidFlow.AI 更像是一个完整的用户洞察平台,它通过 AI 研究员和全球用户池的组合,全面高效地完成用户洞察的全流程。



两者的区别在于:Chikka.ai 像是擅长对话的采访者,而 ValidFlow.AI 则更像是整个研究团队——从设计调研到回收分析,提供更全面的解决方案。现场工作人员表示,他们的目标是让用户洞察不再是大公司的专利,让初创企业也能轻松获得高质量的市场洞察。


进一步阅读:RTE现场看到的超绝AI调研产品,调研人福音!


(3)Lookee:会互动的英语学习伙伴


教育硬件展区总是人山人海,盒智科技推出的 LOOKEE 口语侠尤其受欢迎。这款被称为“全球最小 AI 英语学习语伴”的产品,大小不过一个耳机盒,重量不到 50 克,专为 5-12 岁儿童设计。



他们自研的 AURA 系统能实时分析孩子的情感状态、内容理解度和对话积极性,并动态调整对话策略。通过情感化交互设计,为孩子打造零压力的专属口语环境,解决孩子们“没处说、不敢说”的痛点。


起初我觉得这类 AI 教育硬件应该是产品同质化的重灾区,但在现场我发现,一个孩子在与 LOOKEE 进行英语对话时,摇一摇 LOOKEE,LOOKEE 不仅会换一个口语话题,甚至还会换一个非常有动感的表情,非常可爱。


后面 LOOKEE 团队告诉我,他们做了大量用户调研,挖掘孩子们真正痛点和兴趣点。我觉得这种用心在初创团队上是十分难得的,也是真正打动我的。

AI 桌游《Talk With》:聊天能解决的事儿

大会的互动环节中,最让我惊喜的是全球首款 AI 主题语言类桌游《Talk With》(中文名:聊天能解决的事儿)试玩会。


游戏规则颇具创意:3-5 名玩家抽取随机场景卡,每个场景都潜含着困难和危机。玩家需要竞拍合适的对话式 AI 和语音技术,构建自己的技术壁垒,最终通过路演展示产品愿景。



我参与的一局游戏中,抽到的场景是“解决开车犯困问题”。我们小组竞拍到了情感语音合成技术,设计了一款能通过聊天保持驾驶员清醒的 AI 助手。游戏中的“市场行情卡”带来了意想不到的转折——突然的“技术突破”让我们的方案更具竞争力。


这款桌游巧妙地将 AI 语音技术融入轻松愉快的游戏中,让参与者在 40 分钟的游玩中理解了不同语音技术的应用场景和组合价值。正如游戏名称所暗示的,有时候聊天真的能解决很多问题。

总结:AI 语音的未来是更自然的“相处”

回顾一天的逛展体验和技术专场的深度学习,我最大的感受是:AI 语音技术正从“工具性”走向“关系性”。


从会陪伴的芙崽 Fuzozo,到能教学的 LOOKEE,再到帮助企业洞察用户的 ValidFlow.AI,这些产品不再强调技术的强大,而是聚焦于如何让 AI 更懂人心。101 技术专场中各位讲师反复强调的一个观点让我深有共鸣:技术最终要为体验服务。


当 AI 学会了倾听与对话,它不再只是执行命令的工具,而成为我们生活中有温度的伙伴。这或许就是对话式 AI 最美好的前景——不是取代人类,而是以更自然的方式与人“相处”,让技术真正服务于人的情感需求。


我相信,我们迎来的将是一个更有温度的数字未来。


最后,再次感谢 RTE 开发者社区邀请我们来参加这次活动,真的非常用心,dev party 也让我们交到了不少有意思的新朋友。




阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么



用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

RTE 开发者社区聚焦实时互动与对话式 AI,提供技术分享、创新项目、活动直播与播客;服务 Voice Agent、Real-Time AI 的开发者与创业者。

评论

发布
暂无评论
在 RTE2025 大会,我看到了 AI 语音如何让机器学会「与人相处」丨社区来稿_声网_InfoQ写作社区