利用 NLU 标签优化 ASR 重评分模型
技术背景
当用户与语音助手交互时,自动语音识别(ASR)模型先将语音转为文本,再由自然语言理解(NLU)模型解析文本结构。传统 ASR 系统采用流水线架构,而端到端模型虽更紧凑,但受限于训练数据规模,对罕见词识别效果欠佳。
核心创新
多任务训练框架
在标准语言模型目标(词序列概率预测)基础上,新增 NLU 的意图分类和槽位填充任务
共享词嵌入层,使模型学习同时优化三个目标的向量表示
推理阶段仅保留语言模型评分功能(如图 1 所示架构)
训练策略优化
采用两阶段训练:先在大规模无标注数据上预训练语言模型,再用带 NLU 标注的小数据集微调
对比线性权重调整与随机权重多数算法,后者通过动态概率分布调整任务权重表现更优
实验结果
相对基线模型,罕见词错误率降低 3%(相对无重评分系统降低 5%)
最佳效果来自预训练+多任务微调的组合策略
未来方向
将 NLU 分类结果显式输入解码器
基于意图分类动态偏置重评分
探索半监督学习扩展自动标注数据规模
更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论