写点什么

聊聊智能语音交互系统

作者:轻口味
  • 2023-04-28
    北京
  • 本文字数:1181 字

    阅读完需:约 4 分钟

聊聊智能语音交互系统

1. 背景介绍

前两年在公司负责智能语音交互系统的 SDK 开发,最开始基于第三方全链路能力快速上线了一版快速支持业务,进行效果验证。随后从端到云,从工程到算法都进行了全自研的切换。虽然客户端基于亚马逊 AVS SDK 改造而来,通讯协议也是基于 Alexa,但中间也做了很多我们自己的东西,包括 SDK 删减,云端多链路竞争选择等。现在随着大模型的涌现现象出现,现在回过头来重新审视智能语音对话系统,把自己的一些想法和心得做一下总结。

2. 智能对话系统发展历史

智能语音对话系统只是智能对话系统的一个延伸,对了语音输入和语音输出的能力,但核心还是“对话系统”,到底是“智能”还是“智障”还要看这个对话系统提供多少能力,拥有多少技能。

首先我们先看看对话系统发展历史:



从 1966 年到现在经历了规则时代、智能助理时代、深度学习时代以及现在的 LLM 时代:

  • 早在 1966 年 MIT 开发了基于规则驱动的系统,面向心理咨询场景。

  • 2011 年,苹果发布了 Siri,在工业界引起了广泛关注,是一个重要里程碑。

  • 微软 2014 年推出小冰,主打智能聊天,后续也扩充了各种好玩的技能。

  • OpenAI 2022 年底推出 ChatGPT,给人们带来了足够的震撼。

3. 智能语音对话系统交互流程



智能语音对话系统的输入变成了语音,会经过信号处理及语音识别,输出也变成了语音,通过 TTS 技术,将文本转换为语音。核心的大脑还是语音理解+对话管理+回复生成。

4. 大模型成功能给智能语音交互系统带来什么

之前的对话系统的智能程度靠技能数量的多寡来衡量,技能的开发基于槽位的抽取以及资源的调用来封装。随着 LLM 的成熟,资源内置于模型,交互更自然也更强大。

从目前看对话理解正面临着三个挑战:

  • 大规模持续增长的理解体系、

  • 语音识别错误和口语化问题的鲁棒性挑战、

  • 需要满足不同用户的个性化需求

面对 ChatGPT 的成功,可以将其背后的强大能力拆解为三个维度,分别是对话交互维度、NLP 全任务能力维度以及泛化能力维度。ChatGPT 最大的亮点是语言智能统一范式的飞跃,在此之前整个学术界也一直在探索。

对于“ChatGPT 能否代替语音助手”这个问题,目前看是“不能直接完全替换,但是基于 LLM 的新技术范式升级能够带来革命性的体验”。具体而言,ChatGPT 本身的满足方式还是文本信息,无法直接连接数字世界的服务和 API,比如订闹钟、播放音乐等,而这些都是已有助手需要解决的问题,同时还存在事实性的问答错误以及时效性信息的更新问题,因此无法直接替换。特别是一些私有的 API,比如说操作智能家居开灯关灯,操作我们的手机 APP(比如语音交互的方式打麻将)。

4. 展望

怀着既害怕又期待的心情看待 AGI 的到来,通用人工智能的到来会解决我们真正的“智能对话”的问题,它想一个人一样和我们对话,而且千人千面,个性化十足,那个时候可能才能真正的“去智障”。

5. 总结

本文介绍了智能对话系统的历史,智能语音交互系统的交互流程,大模型给智能交互系统带来的冲激和提升,以及对 AGI 到来后的展望。


发布于: 刚刚阅读数: 4
用户头像

轻口味

关注

🏆2021年InfoQ写作平台-签约作者 🏆 2017-10-17 加入

Android、音视频、AI相关领域从业者。 欢迎加我微信wodekouwei拉您进InfoQ音视频沟通群 邮箱:qingkouwei@gmail.com

评论

发布
暂无评论
聊聊智能语音交互系统_AI_轻口味_InfoQ写作社区