INTERSPEECH2020 语音情感分析论文之我见
摘要: 本文为大家带来 InterSpeech2020 语音情感分析 25 篇论文中的其中 8 篇的总结。
本文分享自华为云社区《INTERSPEECH2020 语音情感分析论文总结一》,原文作者:Tython。
1. LearningUtterance-level Representations with Label Smoothing for Speech EmotionRecognition(INTERSPEECH2020)
(1)数据处理:IEMOCAP 四分类,leave-one-speaker-out,unweightedaccuracy。openSMILE 对短时帧提取 147 维 LLDs 特征。
(2)模型方法:采用 LSTM 对一句话的多个 segment 的特征序列建模,输出的特征序列经过 NetVLAD 进行聚类压缩,由原来的 N*D 的维度降为 K*D,再对降维后的特征进行 softmax 分类。在类别标签上,作者采用标签平滑(labelsmoothing)策略,即在训练过程中,加入非匹配的(X,y)数据对,也叫作 label-dropout(dropping the real labels and replace them with others),并分配一个权值小的标签。以此提升模型的适应性,减少过拟合。
(3)NetVLAD 源自图像特征提取方法的一种 VLAD,通过对图像的特征向量聚类,得聚类中心并做残差,将一个若干局部特征压缩为特定大小全局特征的方法。具体可参考https://zhuanlan.zhihu.com/p/96718053
(4)实验:NetVLAD 可看作一种 pooling 方法,最后 WA 达 62.6%,高出 weighted-pooling2.3 个百分点。label smoothing 前后的效果分别是 59.6%和 62%,相差两个百分点。
(5)总结:最大的贡献在于对每个 frame 的特征进行 NetVLAD 做类似池化操作,筛选有用特征;另外在训练方式上也引入 labelsmoothing 操作,提升效果两个点。
2. RemovingBias with Residual Mixture of Multi-View Attention for Speech EmotionRecognition(INTERSPEECH2020)
(1)数据处理:IEMOCAP 数据四分类,Session1-4 训练,Session5 测试。特征提取 23 维的 log-Melfilterbank。
(2)模型方法:一个 Utterance 分成 N 帧,依次输入 BLSTM(Hiddenlayer 512 nodes),得到 N*1024 大小的矩阵,输入第一个 Attentionlayer 1。将该 layer 的输出合上原始的矩阵一起分别输入三个 Attention_i_Layer_2,该三个 attention 层分别独立并受超参数 gama 控制。然后将三个输出求和,并输入一个全连接层(1024nodes),最后 softmax 层做分类。
(3)实验:采用 WA,UA 作为评价指标,但是文章定义 UA 错误,UA 的定义实际为 WA。而 WA 的定义也存疑。实验效果 UA 达 80.5%,实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy,也是评价的一个 trick。
(4)总结:论文的创新主要对经过 BLSTM 的特征进行多个 Attention 操作,作为 MOMA 模块,取得显著的效果提升。但是该提升只体现在 segment-level 的准确率,参考意义不大。
3. AdaptiveDomain-Aware Representation Learning for Speech Emotion Recognition
(1)数据处理:IEMOCAP 数据四分类,leave-one-speaker-out。STFT 汉明窗提取频谱特征,窗长分别为 20ms,40ms,窗移 10ms。
(2)模型方法:输入同一频谱图,分成两部分,一部分到 Domain-AwareAttention 模块(time pooling, channel poolingand fully connected layer, respectively),另一部分至 Emotion 模块,做 timepooling, channel-wise fully connected(各 channel 分别全连接)。然后 Domain 模块输出一个向量,将向量变成对角矩阵,与 Emotion 模块的输出矩阵相乘,使得领域信息融入到 emotionembedding。最后多任务学习,分别求 Domain loss 和 Emotionloss。这里的 Domain 并不是指不同领域的数据,而是指性别、年龄等额外信息。
(3)实验:WA 达到 73.02%,UA 达到 65.86%,主要对 Happy 情绪的分类不准确。相比单任务 emotion 分类,多任务 WA 高出 3%,WA 高出 9%。
(4)总结:论文实质上就是多任务学习,以此提升情绪分类效果。
4. SpeechEmotion Recognition with Discriminative Feature Learning
(1)数据处理:IEMOCAP 数据四分类,train:validate:test=0.55:0.25:0.2。所有 utterance 切分或填充到 7.5s,提取 LLDs 特征 log-Melfilterbank 四十维特征,窗长分别为 25ms,窗移 10ms。
(2)模型方法:输入语谱图,六个 CNNblock 重头到尾进行卷积,提取特征;之后出入到 LSTM 序列建模,Attention 模块对 LSTM 的输入进行选择权重,最后全连接层再 softmax 分类。
(3)实验:UA 达到 62.3%,比 baseline 的效果低(67.4%),但论文重点在于模型轻(参数量小于 360K),计算快。另一个验证 Additive margin softmax loss, Focal loss 跟 attention pooling 效果相当,都能达到 66%左右。
(4)总结:论文的创新不在网络结构,而是采用不同 loss 的效果。
5. UsingSpeech Enhancement Preprocessing for Speech Emotion Recognitionin Realistic Noisy Conditions
(1)数据处理:IEMOCAP 数据人工加入噪音,CHEAVD 数据本生存在噪音,因此不用加噪音。
(2)模型方法:本文章是一个语音增强模型。输入带噪频谱,目标是生成纯净语音的频谱以及 ideal ratio mask,中间有三层的 LSTM 层,每层会生成一些频谱特征以及相应的 mask。最后一层输出生成的纯净语音频谱和 IRM。
(3)实验:前者 IEMOCAP 数据和 WSJ0 数据一起用于训练语音增强模型,然后对 IEMOCAP 的测试集(加噪音后)进行情绪预测。后者语音增强模型首先在 1000 小时语料上训练好,然后对 CHEAVD 数据进行增强,增强后的语音用于语音情感识别。
(4)总结:语音增强模型在含语音情感的数据上训练后,对于带噪的语音情感识别任务效果显著;在一些低信噪比、低能量和笑声的片段中,语音增强后往往会被扭曲(distorted),SER 效果可能会下降。
6. Comparisonof glottal source parameter values in emotional vowels
(1)数据处理:日本 JAIST 录制的语音数据,四个人(两男两女),每人表达 4 种情绪(生气、愉悦、中性、悲伤)。发音为元音 a。
(2)模型方法:ARX-LF 模型,the ARX-LF model has been widely used for representing glottalsource waves and vocal tract filter。
(3)实验:对声门音(glottalsource)的波形(waveform)分析,发现悲伤的元音更圆滑而愉悦和生气的更陡峭。统计参数(parameters)Tp, Te, Ta, Ee, F0(1/T0)发现,基频 F0 对不同情绪差异显著。
(4)总结:偏传统语言情感研究的方向,研究声门音对情绪的表达情况,具有探索性,在全面 DL 的趋势下,难能可贵。后续可对这些数据进行 DL 建模,也许是一个方向。但是难度在于声门音的收集与标注,目前的实验数据较为稀少且人工录制,成本高,数据量少。
7. Learningto Recognize Per-rater’s Emotion Perception Using Co-rater TrainingStrategy with Soft and Hard Labels
(1)数据处理:IEMOCAP 数据和 NNIME 数据,对 valence、activation 的评分 1-5 分别划成 low/middle/high 三个离散类别。特征源自 openSMILE 的 45 维特征,含 MFCC、F0 和响度等。
(2)模型方法:对于每一段音频,每人对它的情绪感知不一样,传统采用投票机制,选择众数作为唯一标签。本文采用不同的策略,对每个人的情感标签进行预测。基本模型是 BLSTM-DNN 模型,下图中的(a)部分。训练数据的标签分成三部分,一个是每个人的硬标签(唯一),另外两个是除了该目标人的其他人的软标签和硬标签。三类标签数据分别用 BLSTM-DNN 模型单独训练。然后冻结 BLSTM-DNN 参数,将各 BLSTM-DNN 的 denselayer 层的输出拼接,再叠加三个 Dense layers,最后 softmax 到个人的硬标签。因此预测阶段,每个人有对应的情绪感知,当存在 N 个人的话,将有 N 个模型。
(3)硬标签与软标签:对于一段音频,如果三个标注人员的标注结果是[L,L, M],那硬标签就是 L,即[1, 0, 0];软标签则是[0.67,0.33, 0],即三个类别的占比数。
(4)实验:比单独个人的标签建模提升 1-4 个百分点,软硬标签的设计有助于提升 SER 效果。只需标注目标人物 50%的数据,就能取得标注 100%的效果。意思是对于新来一个用户,他只需标注 IEMOCAP50%的数据,该模型就能取得他标注 100%数据效果。
(5)总结:原理上确实众包的标注有利于推测个人的标签,但是没有跟其他模型进行对比,不过这也不是本文的重点。
8. EmpiricalInterpretation of Speech Emotion Perception with Attention Based Model forSpeech Emotion Recognition
(1)数据处理:IEMOCAP 数据四分类,Session1-4 训练,Session5 测试。特征提取 23 维的 log-Melfilterbank。
(2)模型方法:一个 utterance 分成多帧,一份输入 BLSTM+Attention 模型,另一个输入 CNN+Attention 模型。然后将两个模型的结果融合。
(3)实验:采用 WA,UA 作为评价指标,但是文章定义 UA 错误,UA 的定义实际为 WA。而 WA 的定义也存疑。实验效果 UA 达 80.1%,实为 segment-level 的 Accuracy。并没有通用的句子级的 Accuracy,也是评价的一个 trick。
(4)总结:论文就是两个主流模型的结果级融合,创新性不高。提升只体现在 segment-level 的准确率,参考意义不大。
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/64cb8ea75e862ba6a7fc0260c】。文章转载请联系作者。
评论