INTERSPEECH2020 语音情感分析论文之我见

关注

发布于: 2021 年 04 月 01 日

摘要：本文为大家带来 InterSpeech2020 语音情感分析 25 篇论文中的其中 8 篇的总结。

本文分享自华为云社区《INTERSPEECH2020 语音情感分析论文总结一》，原文作者：Tython。

1. LearningUtterance-level Representations with Label Smoothing for Speech EmotionRecognition（INTERSPEECH2020）

（1）数据处理：IEMOCAP 四分类，leave-one-speaker-out，unweightedaccuracy。openSMILE 对短时帧提取 147 维 LLDs 特征。

（2）模型方法：采用 LSTM 对一句话的多个 segment 的特征序列建模，输出的特征序列经过 NetVLAD 进行聚类压缩，由原来的 N*D 的维度降为 K*D，再对降维后的特征进行 softmax 分类。在类别标签上，作者采用标签平滑（labelsmoothing）策略，即在训练过程中，加入非匹配的（X，y）数据对，也叫作 label-dropout（dropping the real labels and replace them with others），并分配一个权值小的标签。以此提升模型的适应性，减少过拟合。

（3）NetVLAD 源自图像特征提取方法的一种 VLAD，通过对图像的特征向量聚类，得聚类中心并做残差，将一个若干局部特征压缩为特定大小全局特征的方法。具体可参考https://zhuanlan.zhihu.com/p/96718053

（4）实验：NetVLAD 可看作一种 pooling 方法，最后 WA 达 62.6%，高出 weighted-pooling2.3 个百分点。label smoothing 前后的效果分别是 59.6%和 62%，相差两个百分点。

（5）总结：最大的贡献在于对每个 frame 的特征进行 NetVLAD 做类似池化操作，筛选有用特征；另外在训练方式上也引入 labelsmoothing 操作，提升效果两个点。

2. RemovingBias with Residual Mixture of Multi-View Attention for Speech EmotionRecognition（INTERSPEECH2020）

（1）数据处理：IEMOCAP 数据四分类，Session1-4 训练，Session5 测试。特征提取 23 维的 log-Melfilterbank。

（2）模型方法：一个 Utterance 分成 N 帧，依次输入 BLSTM（Hiddenlayer 512 nodes），得到 N*1024 大小的矩阵，输入第一个 Attentionlayer 1。将该 layer 的输出合上原始的矩阵一起分别输入三个 Attention_i_Layer_2，该三个 attention 层分别独立并受超参数 gama 控制。然后将三个输出求和，并输入一个全连接层（1024nodes），最后 softmax 层做分类。

（3）实验：采用 WA，UA 作为评价指标，但是文章定义 UA 错误，UA 的定义实际为 WA。而 WA 的定义也存疑。实验效果 UA 达 80.5%，实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy，也是评价的一个 trick。

（4）总结：论文的创新主要对经过 BLSTM 的特征进行多个 Attention 操作，作为 MOMA 模块，取得显著的效果提升。但是该提升只体现在 segment-level 的准确率，参考意义不大。

3. AdaptiveDomain-Aware Representation Learning for Speech Emotion Recognition

（1）数据处理：IEMOCAP 数据四分类，leave-one-speaker-out。STFT 汉明窗提取频谱特征，窗长分别为 20ms,40ms，窗移 10ms。

（2）模型方法：输入同一频谱图，分成两部分，一部分到 Domain-AwareAttention 模块（time pooling, channel poolingand fully connected layer, respectively），另一部分至 Emotion 模块，做 timepooling, channel-wise fully connected(各 channel 分别全连接)。然后 Domain 模块输出一个向量，将向量变成对角矩阵，与 Emotion 模块的输出矩阵相乘，使得领域信息融入到 emotionembedding。最后多任务学习，分别求 Domain loss 和 Emotionloss。这里的 Domain 并不是指不同领域的数据，而是指性别、年龄等额外信息。

（3）实验：WA 达到 73.02%，UA 达到 65.86%，主要对 Happy 情绪的分类不准确。相比单任务 emotion 分类，多任务 WA 高出 3%，WA 高出 9%。

（4）总结：论文实质上就是多任务学习，以此提升情绪分类效果。

4. SpeechEmotion Recognition with Discriminative Feature Learning

（1）数据处理：IEMOCAP 数据四分类，train:validate:test=0.55:0.25:0.2。所有 utterance 切分或填充到 7.5s，提取 LLDs 特征 log-Melfilterbank 四十维特征，窗长分别为 25ms，窗移 10ms。

（2）模型方法：输入语谱图，六个 CNNblock 重头到尾进行卷积，提取特征；之后出入到 LSTM 序列建模，Attention 模块对 LSTM 的输入进行选择权重，最后全连接层再 softmax 分类。

（3）实验：UA 达到 62.3%，比 baseline 的效果低（67.4%），但论文重点在于模型轻（参数量小于 360K），计算快。另一个验证 Additive margin softmax loss, Focal loss 跟 attention pooling 效果相当，都能达到 66%左右。

（4）总结：论文的创新不在网络结构，而是采用不同 loss 的效果。

5. UsingSpeech Enhancement Preprocessing for Speech Emotion Recognitionin Realistic Noisy Conditions

（1）数据处理：IEMOCAP 数据人工加入噪音，CHEAVD 数据本生存在噪音，因此不用加噪音。

（2）模型方法：本文章是一个语音增强模型。输入带噪频谱，目标是生成纯净语音的频谱以及 ideal ratio mask，中间有三层的 LSTM 层，每层会生成一些频谱特征以及相应的 mask。最后一层输出生成的纯净语音频谱和 IRM。

（3）实验：前者 IEMOCAP 数据和 WSJ0 数据一起用于训练语音增强模型，然后对 IEMOCAP 的测试集（加噪音后）进行情绪预测。后者语音增强模型首先在 1000 小时语料上训练好，然后对 CHEAVD 数据进行增强，增强后的语音用于语音情感识别。

（4）总结：语音增强模型在含语音情感的数据上训练后，对于带噪的语音情感识别任务效果显著；在一些低信噪比、低能量和笑声的片段中，语音增强后往往会被扭曲（distorted），SER 效果可能会下降。

6. Comparisonof glottal source parameter values in emotional vowels

（1）数据处理：日本 JAIST 录制的语音数据，四个人（两男两女），每人表达 4 种情绪（生气、愉悦、中性、悲伤）。发音为元音 a。

（2）模型方法：ARX-LF 模型，the ARX-LF model has been widely used for representing glottalsource waves and vocal tract filter。

（3）实验：对声门音（glottalsource）的波形（waveform）分析，发现悲伤的元音更圆滑而愉悦和生气的更陡峭。统计参数（parameters）Tp, Te, Ta, Ee, F0(1/T0)发现，基频 F0 对不同情绪差异显著。

（4）总结：偏传统语言情感研究的方向，研究声门音对情绪的表达情况，具有探索性，在全面 DL 的趋势下，难能可贵。后续可对这些数据进行 DL 建模，也许是一个方向。但是难度在于声门音的收集与标注，目前的实验数据较为稀少且人工录制，成本高，数据量少。

7. Learningto Recognize Per-rater’s Emotion Perception Using Co-rater TrainingStrategy with Soft and Hard Labels

（1）数据处理：IEMOCAP 数据和 NNIME 数据，对 valence、activation 的评分 1-5 分别划成 low/middle/high 三个离散类别。特征源自 openSMILE 的 45 维特征，含 MFCC、F0 和响度等。

（2）模型方法：对于每一段音频，每人对它的情绪感知不一样，传统采用投票机制，选择众数作为唯一标签。本文采用不同的策略，对每个人的情感标签进行预测。基本模型是 BLSTM-DNN 模型，下图中的（a）部分。训练数据的标签分成三部分，一个是每个人的硬标签（唯一），另外两个是除了该目标人的其他人的软标签和硬标签。三类标签数据分别用 BLSTM-DNN 模型单独训练。然后冻结 BLSTM-DNN 参数，将各 BLSTM-DNN 的 denselayer 层的输出拼接，再叠加三个 Dense layers，最后 softmax 到个人的硬标签。因此预测阶段，每个人有对应的情绪感知，当存在 N 个人的话，将有 N 个模型。

（3）硬标签与软标签：对于一段音频，如果三个标注人员的标注结果是[L,L, M]，那硬标签就是 L，即[1, 0, 0]；软标签则是[0.67,0.33, 0]，即三个类别的占比数。

（4）实验：比单独个人的标签建模提升 1-4 个百分点，软硬标签的设计有助于提升 SER 效果。只需标注目标人物 50%的数据，就能取得标注 100%的效果。意思是对于新来一个用户，他只需标注 IEMOCAP50%的数据，该模型就能取得他标注 100%数据效果。

（5）总结：原理上确实众包的标注有利于推测个人的标签，但是没有跟其他模型进行对比，不过这也不是本文的重点。

8. EmpiricalInterpretation of Speech Emotion Perception with Attention Based Model forSpeech Emotion Recognition

（1）数据处理：IEMOCAP 数据四分类，Session1-4 训练，Session5 测试。特征提取 23 维的 log-Melfilterbank。

（2）模型方法：一个 utterance 分成多帧，一份输入 BLSTM+Attention 模型，另一个输入 CNN+Attention 模型。然后将两个模型的结果融合。

（3）实验：采用 WA，UA 作为评价指标，但是文章定义 UA 错误，UA 的定义实际为 WA。而 WA 的定义也存疑。实验效果 UA 达 80.1%，实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy，也是评价的一个 trick。

（4）总结：论文就是两个主流模型的结果级融合，创新性不高。提升只体现在 segment-level 的准确率，参考意义不大。

点击关注，第一时间了解华为云新鲜技术~

发布于: 2021 年 04 月 01 日阅读数: 19

原文链接:【http://xie.infoq.cn/article/64cb8ea75e862ba6a7fc0260c】。文章转载请联系作者。

华为云开发者社区

关注

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区，提供全面深入的云计算前景分析、丰富的技术干货、程序样例，分享华为云前沿资讯动态，方便开发者快速成长与发展，欢迎提问、互动，多方位了解云计算！传送门：https://bbs.huaweicloud.com/

发布

暂无评论

创作场景

INTERSPEECH2020 语音情感分析论文之我见

华为云开发者社区

评论