Interspeech 2025「语音无障碍项目」挑战赛落幕

语音无障碍项目(Speech Accessibility Project,简称 SAP)是一个由美国伊利诺伊大学厄巴纳-香槟分校主导、亚马逊、苹果、谷歌、Meta、微软等公司支持的项目。该项目致力于为言语障碍患者开发更好的语音识别技术。
中风、帕金森病、脑瘫、唐氏综合症(DS)、渐冻症(ALS)等疾病的患者可能同时患有言语障碍,其症状包括说话声音小、声调平、口吃、语速快、语速慢、发声时伴有气喘声等。依靠当今的自动语音识别(ASR)技术去准确识别这类患者的言语,需要收集该患者群体的大量语音数据,才能训练/微调出相对精准的 ASR 模型。
语音无障碍项目(SAP)多年来已经收集、脱敏、转录、整理了来自数百位言语障碍患者的数百小时的英语语音数据,并且可以将数据分发给愿意签署该项目“数据使用协议”的研究人员和商业开发商。在此之前,类似的英语语音数据集最大的仅包含来自十多位患者的二十多小时的语音数据。
Interspeech 2025 SAP 挑战赛
为了进一步提升语音识别技术服务言语障碍患者的能力,语音无障碍项目(SAP)发起了 Interspeech 2025 语音无障碍项目挑战赛[1]。
该挑战赛为各参赛队提供了语音无障碍项目(SAP)收集整理的言语障碍患者的语音数据集中的一部分,作为训练数据,并采用了该数据集中的另外一部分对各参赛队提交的自动语音识别(ASR)模型进行评测。
评测指标
评测参赛模型的指标包括:
WER(Word Error Rate):自动语音识别(ASR)领域的一个经典评测指标,在字词级别上衡量 ASR 模型的语音转文字的准确程度;
SemScore(Semantic Score):为了评测针对言语障碍患者的语音识别而新设计的一个指标[2],用于衡量 ASR 模型的语音转文字的语义保真程度。
SemScore 指标
设计 SemScore 指标的目的主要有以下两个。
目的一:为了克服 WER 等传统指标评测针对言语障碍患者的语音识别的局限性。以下举一个例子[1]来说明一下有关的局限性。
如果针对“how do you spell exercise”这句话的发音,两个 ASR 系统分别转录出“how do you feel exercise”和“how to spell exercise”,相应的 WER 分数则分别是 20%和 40%;由于 WER 分数越低越好,因此,从 WER 分数来看,前一个 ASR 系统相对较好;但如果由人来判断的话,后一个 ASR 系统转录得更准确。
目的二:考虑到当今的大语言模型(LLM)已经具有修正语音识别结果的能力(如下例所示),因此,LLM 修正语音识别结果的能力需要同时衡量。
LLM 修正语音识别结果的示例[2]:在下图中,“Hypothesis:”之后的文字是 ASR 模型转录后的文字;“Reference:”之后的文字是原文;“GPT-Corrected:”之后的文字是 GPT 修正转录文字之后的结果。

SemScore 指标的公式是:

其中,α、β和γ经过实验确定为 0.40、0.28 和 0.32[1][2]。
SemScore 指标整合了以下三种评估:
逻辑蕴涵(Logical Entailment)评分——采用自然语言推理(Natural Language Inference,简称 NLI)来衡量原文中的逻辑在 ASR 转录文本中得到保留的程度;
原文本与 ASR 转录文本的语义相似度;实际采用了 BertScore F1 语义相似度;
原文本与 ASR 转录文本的语音相似度;实际采用了 Soundex 编码的 Jaro-Winkler 相似度。
挑战赛结果
在 22 支参赛队中,12 支参赛队的 ASR 模型在 WER(Word Error Rate)指标上优于基线模型 whisper-large-v2,17 支参赛队的 ASR 模型在 SemScore 指标上优于基线模型 whisper-large-v2。
排名靠前的五支参赛队的模型评测结果、以及基线模型(whisper-large-v2)的表现如下表所示[1];其中,字母“a”到“e”代表排名靠前的五支参赛队,“*”代表基线模型。

夺得桂冠的队伍以 WER 分数 8.11%、SemScore 分数 88.44%的成绩,刷新了针对言语障碍患者的语音识别的基准。
排名靠前的几支参赛队都基于公开的 ASR 基础模型(NVIDIA 的 parakeet 模型、或者 OpenAI 的 whisper 模型)进行了模型微调。
结合语音无障碍项目(SAP)的数据集进行模型微调,能够显著提升针对言语障碍患者的自动语音识别的性能。
下表列出了排名靠前的几支参赛队的模型架构、训练策略、以及主要技术[1];其中,字母“a”到“h”代表排名靠前的几支参赛队,“*”代表基线模型。

“a”、“b”参赛队均采用了将长音频切分成片段的方法。“a”参赛队采用了模型融合的方法。“c”参赛队采用了 WhisperX 预处理管道、以及基于规则的后处理,用以解决幻觉问题。“d”参赛队通过大语言模型来修正转录结果,从而提高了 ASR 的准确率。各参赛队还采用了语音增强(Speech Enhancement)、病因分类、课程学习(Curriculum Learning)、说话人向量映射等方法。
参考文献
[1] The Interspeech 2025 Speech Accessibility Project Challenge
https://arxiv.org/abs/2507.22047
使用许可协议:CC BY
https://creativecommons.org/licenses/by/4.0/
[2] Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches
https://arxiv.org/abs/2506.16528
使用许可协议:CC BY
版权声明: 本文为 InfoQ 作者【算AI】的原创文章。
原文链接:【http://xie.infoq.cn/article/f1f2ad90fbcbaa5c8289a38a3】。文章转载请联系作者。
评论