设备端语音处理技术解析

作者：qife

系统架构

设备端自动语音识别(ASR)模型接收语音信号后，输出按概率排序的识别假设集合。这些假设以格(lattice)结构表示——图中的边代表识别词汇及其转移概率。

相比云端 ASR 需要传输音频片段，设备端仅需向云端发送识别格，由强大的神经语言模型重新排序假设。识别格需在用户结束说话后才能发送，因为后续词汇可能显著改变假设概率。

端点检测模型(end-pointer)决定用户何时结束发言。设备端运行两种端点检测器：

设备端 ASR 需支持动态上下文感知，例如：

采用基于多头注意力机制的上下文偏置技术，与 ASR 子网络联合训练：

专研神经边缘处理器支持：

该技术已应用于车载等弱网环境，未来将拓展至多语言动态切换场景。更多精彩内容请关注我的个人公众号公众号（办公 AI 智能小助手）公众号二维码

办公AI智能小助手

发布于: 刚刚阅读数: 3

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

发布

暂无评论