基于跨话语重评分的包容性语音识别技术
自动语音识别(ASR)系统通常包含两个阶段:第一阶段通过深度神经网络将声学信息映射为可能的单词序列假设;第二阶段通过语言模型评估这些假设的合理性。传统声学模型针对多数发音模式优化,导致对训练数据中代表性不足的发音(如区域口音)识别效果较差。
在 ICASSP 2023 会议上提出的新方法采用图标签传播技术改进重评分过程:首先构建语音样本图网络,节点表示语音嵌入向量,边连接发音相似的语句。通过动态时间规整(DTW)算法计算嵌入向量距离,当距离低于阈值时建立边连接。在包含标注数据和非标注数据的半监督学习场景中,该方法能将有高置信度的正确转录结果传播到发音相似但识别置信度低的节点。
实验使用以北美英语为主训练的 ASR 系统测试英国、苏格兰、印度等地区口音数据。结果显示该方法使整体词错误率平均下降 44%。该技术特别适用于半监督学习场景,通过教师模型生成更准确的语音标注,帮助学生模型克服训练数据中的主流发音偏见。
核心技术包括:
基于 RNN-T 模型的编码器-解码器架构生成初始假设
动态时间规整算法计算语音嵌入相似度
图标签传播算法在相似发音节点间传递高置信度转录结果
二元边连接策略优化图网络结构
该方法被 ICASSP 会议评为前 3%的优秀论文,为改善语音识别系统的包容性提供了有效解决方案。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论