[干货] 语音技术最新进展 -Interspeech 总结

2021 年 11 月 29 日
本文字数：2142 字
阅读完需：约 7 分钟

2016 年 9 月 7 日-12 日，语音与信息处理技术领域顶级的国际会议 Interspeech 在美国旧金山举行，阿里几位语音技术专家参加了此次会议。

Interspeech 是语音领域两个重要的国际会议之一(另一个为 ICASSP)，学术界和工业界的从业人员在会议上进行了深入的交流，此次会议内容涵盖了语音识别、语音合成、声纹识别、语种识别、语音增强、多模态、语言模型等多个方向

【语音识别】

1. CTC 及类似技术

CTC 作为过去两年来最为火热的语音识别技术在此次会议上遇到了一次寒流，文章数量较之前的会议有所下降，相关文章中比较有代表性的一篇是 Bengio 的学生将 Deep CNN+CTC 做 work，而此前很多人一直认为 CNN+CTC 在语音上没有效果。相关论文：

Ying Zhang, Mohammad Pezeshki, et al. “Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks”.

Daniel Povey 正式发表了他们前段时间在 kaldi 上进行的 chain 的工作，该工作可以看做是对 CTC 的进一步扩展，直接使用句子级区分性准则进行模型的训练，该方法被认为是下一步提升语音识别效率与性能最有潜力的技术之一。相关论文：

Daniel Povey, Vijayaditya Peddinti, et al. “Purely Sequence-Trained Neural Networks for ASR Based on Lattice-Free MMI”.

谷歌发表了称为 Lower Frame Rate (LFR)网络的模型，论文中的研究表明使用单状态的 CD-Phone、拼帧并降帧率、soft label、CE 初始化、Output Delay 等技术可以让传统神经网络识别模型取得和 CTC 近似或更好的效果。相关论文：

Golan Pundak, Tara N. Sainath. “Lower Frame Rate Neural Network Acoustic Models”。

2. Deep CNN 技术

Deep CNN 在今年的 ICASSP 上让人眼前一亮，多家机构表示使用 Deep CNN 结构相比传统 CNN 的模型可以显著提升语音识别的准确率，本次会议上 Deep CNN 的论文并不是很多，比较有代表性的有两篇文章。一篇来自微软，主要工作是将 CNN 和 Attention 进行融合。另一篇来自 IBM，主要研究了 CNN 区分性训练加速、time-pooling、Batch Normalization 等的影响。相关论文：

Dong Yu, Wayne Xiong, et al. “Deep Convolutional Neural Networks with Layer-Wise Context Expansion and Attention”

Tom Sercu, Vaibhava Goel. “Advances in Very Deep Convolutional Neural Networks for LVCSR”.

3. 其它 Deep Model 结构创新与演进

Highway/残差网络在此次会议有不少论文出现，主要是通过层间及越层的直连使模型可以训练的更深并带来更好的识别效果，建模中的 trick 较多。相关文章：

Liang Lu, Steve Renals. “Small-Footprint Deep Neural Networks with Highway Connections for Speech Recognition”.

Yuanyuan Zhao, Shuang Xu, Bo Xu. “Multidimensional Residual Learning Based on Recurrent Neural Networks for Acoustic Modeling”.

讯飞发表了 FSMN 声学建模的论文，借鉴了 FIR 滤波器的思想，论文中的实验在 switchboard 数据集上取得了不错的效果。相关文章：

Shiliang Zhang, Hui Jiang, Shifu Xiong, Si Wei, Li-Rong Dai. “Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition”.

4. Far-field 语音识别

今年可以很明显的感觉到远场识别研究热度的升温，不仅是 Tutorial 里专门有远场的专题，相关 session 的数量也比以前更多。文章的增多也反映了 IOT 产业对于语音识别的需求。基于神经网络的方法在其中占据了主导地位，主要研究方向包括 adaptive beamforming、multichannel 融合、算法复杂度降低等。感觉未来这方面会是语音识别研究的重点领域。相关论文：

Bo Li, Tara N, et al. “Neural Network Adaptive Beamforming for Robust Multichannel Speech Recognition”.

Suyoun Kim, Ian Lane. “Recurrent Models for Auditory Attention in Multi-Microphone Distant Speech Recognition”.

Tara N. Sainath, Arun Narayanan, et al. “Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction”.

【语音合成】

这次会议期间语音合成最大的新闻来自于会场外，Google DeepMind 公布了 WaveNet 系统，用于语音合成、Audio 自动生成甚至语音识别。这个系统采用了类似于 PixelRNN 的方法，直接针对 waveform 的采样点进行建模，每一个采样点的预测依赖于前面若干采样点作为输入。结合 speaker 或者 text 信息作为输入，这个系统可以用来对 waveform 和 speaker/text 之间的关系进行建模，继而生成 speaker 相关的 audio 信号或者语音合成系统。当采用大量的数据进行训练时，这个系统显示出了良好的语音合成效果，能产生极其类似于自然语音的 waveform，该论文声称大幅度缩小了与自然语音之间的差距。

【其它领域】

基于神经网络的 Language modeling 近年来一直是研究的热点，但由于计算效率上的问题，一直难以落地到实际产品中，现有方法多是与 n-gram 进行结合，利用插值的方法进行 rescore，本次会议上的技术进展也主要集中在这方面。会场外微软在 arxiv 上发表了” THE MICROSOFT 2016 CONVERSATIONAL SPEECH RECOGNITION SYSTEM”，在 RNN-LM 的帮助下将 switchboard 的词识别错误率降低到了 6.3%。

声纹和语种方面的文章，主要是围绕 I-vector、PLDA 等进行的技术改进，以及从识别等领域借鉴已有技术，如 Attention 机制等来进行一定程度的技术创新。

发布于: 1 小时前阅读数: 4

原文链接:【http://xie.infoq.cn/article/fd85c5dbd8746c7480981a44f】。未经作者许可，禁止转载。

阿里技术

关注

还未添加个人签名 2021.11.22 加入

还未添加个人简介

发布

暂无评论

创作场景

[干货] 语音技术最新进展 -Interspeech 总结

阿里技术

评论