写点什么

基于跨话语重评分的包容性语音识别技术

作者:qife
  • 2025-08-10
    福建
  • 本文字数:648 字

    阅读完需:约 2 分钟

自动语音识别(ASR)系统通常包含两个阶段:第一阶段通过深度神经网络将声学信息映射为可能的单词序列假设,第二阶段通过语言模型评估这些假设的合理性。由于声学模型主要针对主流发音优化,对训练数据中代表性不足的发音变体(如区域口音)识别效果较差。


在 ICASSP 2023 会议上提出的新方法采用图标签传播技术改进重评分过程。该方法构建包含不同说话者但假设相似的语音样本图,在声学特征相似的节点间建立边连接,通过图传播机制增强相邻节点共享假设的概率。这使得孤立情况下概率较低的发音变体能够通过相似发音的集体支持获得正确识别。


实验使用以北美英语为主训练的识别器测试英国、苏格兰、印度等地区口音英语,新方法使词错误率平均下降 44%。该技术特别适用于半监督学习场景,通过教师模型为包含非标准发音的样本生成更准确标签,从而提升学生模型的训练数据多样性。


图构建技术


基于递归神经网络 transducer (RNN-T) 模型生成的假设,将具有显著重叠假设的话语分组构建独立图。采用动态时间规整(DTW)算法计算语音嵌入向量间的距离,通过学习得到的阈值确定节点连接,实证表明二元边连接效果最佳。


标签传播机制


在半监督学习框架下,将标注数据的高置信度转录通过图传播算法扩散到相似的非标注节点。即使非标准发音的初始识别置信度较低,其语音嵌入与正确转录高置信度的相似发音连接时,正确结果仍能通过图结构传播获得修正。


该方法入选 ICASSP 2023 会议 Top 3%论文,为改善语音识别系统的包容性提供了有效技术路径。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
基于跨话语重评分的包容性语音识别技术_语音识别_qife_InfoQ写作社区