写点什么

利用 BERT 模型提升语音识别重排序效果

作者:qife122
  • 2025-08-14
    福建
  • 本文字数:551 字

    阅读完需:约 2 分钟

语音识别中的重排序挑战

当用户与语音助手交互时,自动语音识别(ASR)模型将语音转为文本。由于核心 ASR 模型训练数据有限,对罕见词句处理能力较弱,因此需通过语言模型对识别假设进行二次排序。传统方法使用长短期记忆(LSTM)语言模型,而本文提出基于 BERT 的 RescoreBERT 模型,显著提升准确性。

RescoreBERT 架构

模型通过以下方式工作:


  1. 输入处理:每个 ASR 假设以分类标记(CLS)分隔,经 BERT 编码后,CLS 标记的编码代表整句语义。

  2. 分数计算:前馈神经网络基于 CLS 编码生成二次排序分数,与初次分数线性插值后重排假设。

关键技术优化

  • 知识蒸馏(MLM 蒸馏):通过小型 BERT 模型模仿大型"教师模型"的伪对数似然(PLL)分数,降低计算延迟。

  • 判别式训练:引入新损失函数 MWED(匹配词错误分布),优化假设分数与错误分布的匹配,英语任务中性能提升 7%-13%。

实际应用效果

与 Alexa 团队合作部署后,RescoreBERT 在保持商用效率的同时,错误率较 LSTM 模型降低 13%。该技术尤其擅长处理罕见词(如"fission"),通过结合初次分数与判别式训练,显著提升排序准确性。

研究贡献

  • MWER 替代方案:证明 MWED 损失函数在英语任务中的有效性。

  • 效率平衡:蒸馏技术使 BERT 模型计算成本降低至可商用水平。


更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)或者 我的个人博客 https://blog.qife122.com/公众号二维码


办公AI智能小助手


用户头像

qife122

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
利用BERT模型提升语音识别重排序效果_深度学习_qife122_InfoQ写作社区