写点什么

网易有道 ASR 团队斩获 Interspeech 2021 算法竞赛两项冠军

发布于: 2021 年 04 月 22 日
网易有道 ASR 团队斩获 Interspeech 2021 算法竞赛两项冠军

在近期举行的 Interspeech 2021 会议上,主办方开展了“非母语儿童语音识别”的特别会议,并发布专项数据集用于算法评测竞赛,旨在推动非母语儿童语音识别技术的研究。此次竞赛共分为 4 个细分赛道,网易有道 ASR 团队斩获其中 2 项冠军与 1 项亚军


Interspeech 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的顶级旗舰国际会议,作为全球最大的综合性语音信号处理领域的科技盛会,历届 Interspeech 会议都备受全球各地语音语言领域人士的广泛关注


当前,自动语音识别(ASR)技术已经在很多场景中得到实际应用,但当应用于特定类型的人群(例如非母语人群和儿童等)的语音数据时,效果仍有较大的可提升空间。


非母语语音中,几种现象会大大降低传统 ASR 的性能,包括发音错误的单词、不合语法的发音等;儿童语音则由于生理差异(例如较短的声道长度)、认知差异(例如语言习得)和行为差异(例如习惯性低语)等因素,使得其更具挑战。目前也缺乏针对非母语和儿童语音的公开数据库。


虽然面临诸多挑战,但在实际应用中,很多语音数据均来自于非母语人士和儿童,例如语言学习等常见场景。研究针对这两类人群的 ASR 技术,具有非常大的意义和价值。


网易有道 ASR 团队凭借自身的 AI 技术能力,结合在线教育真实场景中的多年深耕实践,在此次“Interspeech 2021-非母语儿童语音识别”算法竞赛中取得 2 项冠军、1 项亚军的优异成绩:在英文指定数据集和开放数据集两个赛道中,网易有道均以识别准确率更高获得冠军,并在德语指定数据集赛道中获得第二名。


英文指定数据集赛道排名


英文开放数据集赛道排名


网易有道 ASR 团队采用了速度扰动、音量扰动、基频扰动等多种数据增强方法以扩增数据量,减小不同语音音量差异,同时平衡不同年龄段儿童语音数据的基频变化。模型方面采用了传统 Hybrid-NN 模型和端到端 Transformer 模型。其中端到端模型还采用成人数据进行模型预训练,以帮助构建儿童语音识别单元以及训练声学模型。


目前,语音识别技术已经广泛应用于网易有道的众多产品中,如有道词典、有道精品课、有道少儿英语、有道词典笔等,开拓了明星语音、词典笔跟读绘本、语音答题等实际场景中的功能,给用户带来更加便捷、有趣的体验。


有道词典笔跟读绘本功能


未来,网易有道将继续推进语音识别等 AI 技术的研究,结合在线教育真实场景与用户需求,不断用先进技术提升产品体验,为用户带来更大价值。


- END -

发布于: 2021 年 04 月 22 日阅读数: 76
用户头像

高效学习,从有道开始 2021.03.10 加入

分享有道人的技术思考与实践。

评论

发布
暂无评论
网易有道 ASR 团队斩获 Interspeech 2021 算法竞赛两项冠军