聊聊智能语音交互系统

2023-04-28
北京
本文字数：1181 字
阅读完需：约 4 分钟

1. 背景介绍

前两年在公司负责智能语音交互系统的 SDK 开发，最开始基于第三方全链路能力快速上线了一版快速支持业务，进行效果验证。随后从端到云，从工程到算法都进行了全自研的切换。虽然客户端基于亚马逊 AVS SDK 改造而来，通讯协议也是基于 Alexa，但中间也做了很多我们自己的东西，包括 SDK 删减，云端多链路竞争选择等。现在随着大模型的涌现现象出现，现在回过头来重新审视智能语音对话系统，把自己的一些想法和心得做一下总结。

2. 智能对话系统发展历史

智能语音对话系统只是智能对话系统的一个延伸，对了语音输入和语音输出的能力，但核心还是“对话系统”，到底是“智能”还是“智障”还要看这个对话系统提供多少能力，拥有多少技能。

首先我们先看看对话系统发展历史：

从 1966 年到现在经历了规则时代、智能助理时代、深度学习时代以及现在的 LLM 时代：

早在 1966 年 MIT 开发了基于规则驱动的系统，面向心理咨询场景。
2011 年，苹果发布了 Siri，在工业界引起了广泛关注，是一个重要里程碑。
微软 2014 年推出小冰，主打智能聊天，后续也扩充了各种好玩的技能。
OpenAI 2022 年底推出 ChatGPT，给人们带来了足够的震撼。

3. 智能语音对话系统交互流程

智能语音对话系统的输入变成了语音，会经过信号处理及语音识别，输出也变成了语音，通过 TTS 技术，将文本转换为语音。核心的大脑还是语音理解+对话管理+回复生成。

4. 大模型成功能给智能语音交互系统带来什么

之前的对话系统的智能程度靠技能数量的多寡来衡量，技能的开发基于槽位的抽取以及资源的调用来封装。随着 LLM 的成熟，资源内置于模型，交互更自然也更强大。

从目前看对话理解正面临着三个挑战：

大规模持续增长的理解体系、
语音识别错误和口语化问题的鲁棒性挑战、
需要满足不同用户的个性化需求

面对 ChatGPT 的成功，可以将其背后的强大能力拆解为三个维度，分别是对话交互维度、NLP 全任务能力维度以及泛化能力维度。ChatGPT 最大的亮点是语言智能统一范式的飞跃，在此之前整个学术界也一直在探索。

对于“ChatGPT 能否代替语音助手”这个问题，目前看是“不能直接完全替换，但是基于 LLM 的新技术范式升级能够带来革命性的体验”。具体而言，ChatGPT 本身的满足方式还是文本信息，无法直接连接数字世界的服务和 API，比如订闹钟、播放音乐等，而这些都是已有助手需要解决的问题，同时还存在事实性的问答错误以及时效性信息的更新问题，因此无法直接替换。特别是一些私有的 API，比如说操作智能家居开灯关灯，操作我们的手机 APP（比如语音交互的方式打麻将）。

4. 展望

怀着既害怕又期待的心情看待 AGI 的到来，通用人工智能的到来会解决我们真正的“智能对话”的问题，它想一个人一样和我们对话，而且千人千面，个性化十足，那个时候可能才能真正的“去智障”。

5. 总结

本文介绍了智能对话系统的历史，智能语音交互系统的交互流程，大模型给智能交互系统带来的冲激和提升，以及对 AGI 到来后的展望。

发布于: 刚刚阅读数: 4

原文链接:【http://xie.infoq.cn/article/663f9e70bfe2288337e0e0186】。文章转载请联系作者。

轻口味

关注

🏆2021年InfoQ写作平台-签约作者 🏆 2017-10-17 加入

Android、音视频、AI相关领域从业者。欢迎加我微信wodekouwei拉您进InfoQ音视频沟通群邮箱：qingkouwei@gmail.com

发布

暂无评论

创作场景