京东智联云 4 篇论文入选国际语音顶级大会 Interspeech 2020
近日,受到新冠疫情的影响,原计划于 2020 年 10 月 25 日至 10 月 29 日期间,在中国上海+线上同步举行的国际语音顶级会议 Interspeech 2020 最终改为线上举行。京东人工智能研究院有 4 篇论文脱颖而出,成功入选本次大会。分别在声音事件定位与检测、语音去混响、语音验证系统、神经网络声码器等领域取得突破。同时,京东智联云作为本届会议的钻石级赞助商,致力于加强工业界和学术界的技术协作,支持会议顺利进行。
Interspeech 2020 是由国际语音通信协会 ISCA 组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。该会议每年举办一次,今年大会是第 21 届 INTERSPEECH 会议,也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题,内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域。
京东人工智能研究院专注于持续性的算法创新,80%的研究都由京东实际的业务场景需求为驱动,聚焦 NLP 语音、计算机视觉、机器学习(包括深度学习和强化学习)等领域。在 Interspeech 2020 中,京东人工智能研究院提交的多篇论文经过重重审核,最终被大会收录。本文将向大家分享京东人工智能研究院入选的 4 篇论文主要思路与创新点。
01,基于多方位波束形成和多任务学习的声音事件定位与检测
(Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning)
声音事件检测和定位在智能家居、智能安防等领域具有重要的应用价值,而环境中的噪声、混响、多声源混叠等给该任务带来了巨大挑战。声音事件检测和定位通常基于麦克风阵列,更广泛而言,如何有效利用多通道麦克风信号,提高基于深度神经网络的语音相关任务的性能,也是仍需解决的问题。
本文提出了一种基于多方位波束形成和多任务学习的声音事件检测和定位方法,主要特点为利用传统声学信号处理为神经网络提供更为丰富的信息。具体而言,通过指向不同预定方位的固定波束形成,可提取各个方位的声源信号,并抑制该方位之外的干扰信号。该方法无需预先进行声源定位或掩蔽估计,即可获得差异化多样化的空间表示。
本文推导了采用训练数据基于互功率谱的导向矢量计算方法,以消除对麦克风阵列几何信息的依赖。进一步,本文分别设计了声源定位网络和基于多任务学习的声音事件检测网络。我们在 DCASE2019 声音事件检测和定位数据集上进行了评估,结果表明所提算法取得了最好的综合性能。
02,SkipConvNet:基于功率谱最优平滑及跨层卷积神经网络的语音去混响
(Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping)
本文所述研究为京东人工智能研究院和德克萨斯大学达拉斯分校的合作研究项目。全卷积神经网络的有效性已经在众多语音应用中得到展现。该网络的一个重要变体是“ UNet”,即包含跨层连接的 encoder-decoder 的卷积网络。
本研究提出了基于“ SkipConvNet”的降混响算法,该算法用多个卷积网络替换 UNet 的每个跨层连接,为 decoder 提供更为直观的信息表示,以提高网络性能。本文还提出了基于最优平滑功率谱估计的预处理步骤,这有助于进一步提高网络的学习能力。采用 REVERB Challenge 语料库的实验结果表明,所提方法在客观质量评估上显著优于基线系统,并明显改善混响条件下的语音识别及说话人识别性能。
03,FFSVC 2020 Challenge JD AI声纹验证系统
(The JD AI Speaker Verification System for the FFSVC 2020 Challenge)
远场声纹识别系统中,声学环境的复杂性以及多变性对声纹识别及验证的性能带来巨大挑战。本文基于 FFSVC2020 远场声纹验证竞赛,主要探索了数据扩充、模型结构以及打分策略对远场声纹验证性能的影响。
FFSVC2020 比赛提供了约 1100 小时共计 120 位说话人的数据,如何利用大量的开源近场数据进行数据扩充是本文探讨的主要方向之一。我们采用的策略包括:
1)采用 beamforming, voice channel switching 和 dereverberation 等技术将远场数据变换到近场;
2)通过计算 FFSVC2020 远场数据和近场数据之间的房间冲激相应函数(RIR,room impulse response)以及采用模拟仿真生成大量的 RIR,在近场数据上增加卷积噪声;
3)利用录制的大量的环境噪声在近场数据上增加加性噪声;
4)将 data augmentation 技术用于训练集或者用于测试集增加数据的多样性。实验结果表明,data augmentation 能够大幅提升系统的性能。
此外,本文还探索了 TDNN,TDNNF,ResNet, Transformer 等模型结构在声纹验证里的应用。结合得分规整技术和两级打分策略,相比于官方基线系统,minDCF 绝对降低 0.2393,EER 绝对降低 3.16%。
04,Efficient WaveGlow:一种改进的可提高速度的 WaveGlow 声码器
(WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed)
在高质量的语音合成系统中,像 WaveGlow 这种神经网络声码器已经成为了必不可少的一部分。Efficient WaveGlow 是我们提出的一个基于归一化流的高效的神经网络声码器。
和 WaveGlow 一样,Efficient WaveGlow 采用归一化流作为网络框架,每一个流操作由一个 affine coupling layer 和可逆的 1x1 卷积层构成。为了减少模型的参数量,提升推理速度,Efficient WaveGlow 在以下 3 个方面对 WaveGlow 进行了改进:
1)把基于 WaveNet 网络结构的仿射变换网络改为了基于 FFTNet 网络结构的放射变换网络,FFTNet 网络结构比 WaveNet 更简单高效,拥有更少的参数量;
2)采用分组卷积进一步减少模型的参数量,提升模型效率;
3)我们尝试了在仿射变换网络中的每一个卷积层中共享 local condition,用以减少冗余特征,减少模型的参数量。
Efficient WaveGlow 与 WaveGlow 相比,合成同样长度的音频的计算量降低了 12 倍以上。同样,模型的参数量也降低了 12 倍以上。实验结果表明,Efficient WaveGlow 并没有明显的声音质量下降,但是却能实现 CPU 上推理速度 6 倍的提升以及 P40 上推理速度 5 倍的提升。
关于京东 AI 研究院
京东 AI 研究院专注于持续性的算法创新,多数研究将由京东实际的业务场景需求为驱动。研究院的聚焦领域为:计算机视觉、自然语言理解、对话、语音、语义、机器学习等实验室,已逐步在北京、南京、成都、硅谷等全球各地设立办公室。
推荐阅读:
欢迎点击【京东智联云】,了解开发者社区
更多精彩技术实践与独家干货解析
欢迎关注【京东智联云开发者】公众号
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/be827a99b0cbe859d5369ebdb】。文章转载请联系作者。
评论