ICASSP 2022 | 用于多模态情感识别的 KS-Transformer

2022 年 7 月 20 日
本文字数：1975 字
阅读完需：约 6 分钟

2020 年，优必选科技与华南理工大学合作共建了“类人情感智能”联合创新实验室，在双方强强联合下，联合创新实验室在相关技术上不断取得突破。近期，该实验室的最新论文《Key-Sparse Transformer For Multimodal Speech Emotion Recognition》（用于多模态情感识别的 KS-Transformer），就入选了刚刚结束的 ICASSP 2022（International Conference on Acoustics, Speech and Signal Processing) ，该会议由电气电子工程师学会(IEEE)主办，是全世界最大、最全面的声学、语音和信号处理国际会议。

以下是该论文的核心观点。

多模态情感识别是人机交互中的重要技术，也是人工智能走向类人智能时所需要攻克的关键难题。在以往的大多数研究工作当中，情感识别系统会考虑输入语音信号或文字信号中的所有信息。但是，在整段的信号里面，蕴含有情感信息的片段往往只占整体中的一部分。在情感识别过程中，情感无关的信息会成为系统中的噪声，从而影响识别系统的性能。因此，如何让系统尽量关注信号中蕴含有丰富情感信息的片段，是提高情感识别准确率的关键。

我们基于 Transformer 架构，提出了一种全新的键稀疏 Transformer 结构（Key-Sparse Transformer, KS-Transformer），可以动态地判断文本信号中的每一个单词，亦或是语音信号中每一帧的重要性，从而帮助模型尽可能把注意力放在与情感相关的片段上。此外，为了更好地利用好多模态信息，我们提出了一个串联的互注意力模块（Cascaded Cross-Attention Block，CCAB），更好融合不同模态之间的信息。

传统的方法：

Transformer

传统的 Transformer 模型使用了信号中的所有信息。以一段在 IEMOCAP 数据库中的文本信号“Okay, look it’s a beautiful day. Why are we arguing?”为例，传统的 Transformer 关注到了文本中的每一个单词，对每一个单词都分配了注意力权重，然而，“beautiful”和“arguing”这两个单词包含了该文本中绝大部分的情感信息，需要模型更多的关注。

自动地寻找情感片段：

KS-Transformer

首先，我们重新思考了 Transformer 中的注意力机制，其计算过程如下所示：

其中，W 是权重矩阵，attn 是注意力计算的输出。值得注意的是，对于语音信号，QKV 中的每一个 token 代表语音中的某一帧。对于文本信号，QKV 则代表文本中的某一个单词/字。权重矩阵 W 中的每一行，代表着 V 中每一个 token 所分配到的注意力权重。我们把 V 中同一个 token 的所有注意力权重进行相加，其和值则代表该 token 在整个样本中的重要性。直观来看，如果一个 token 很重要，那么在注意力机制计算的过程中，其他 token 都应该给它分配一个较大的注意力权重，其和值也必然更加大。相反，如果一个 token 不重要，其他 token 都只会分配很小的注意力权重给它，其和值也将很小。我们挑选出 k 个 token，他们具有最大的和值，并保留他们的注意力权重，而将其他 token 的注意力权重置零。最终，我们设计的注意力机制计算流程如下图所示：

为了更好地利用好文本与语音信号的信息，本文提出了一个串联的互注意力模块（Cascaded Cross-Attention Block，CCAB），通过增加不同模态之间的交互次数使模态间的融合更加充分。其详细结构如下图所示：

每经过一个 CCAB 模块，模态 B 中的信息就通过 KS-Transformer 注入到了模态 A。经过多个 CCAB 模块，可以使模态 A 和模态 B 中的信息实现多次的交互。

实验结果

以下实验在常用情感数据库 IEMOCAP 以及最新发布的大规模情感数据库 LSSED 中进行。

1）可视化分析

同样以文本信号“Okay, look it’s a beautiful day. Why are we arguing?”为例，我们对原始 Transformer 与我们所提出的 KS-Transformer 中的注意力权重进行了可视化的分析，结果如下图所示。可以看到，Transformer 给句子中的每一个单词都分配了注意力权重，包括一些与情感相关性不大的单词，使得模型容易出现过拟合的现象。而 KS-Transformer 通过稀疏的注意力机制，过滤掉了大部分的噪声单词，减少模型的复杂度的同时提升了模型的鲁棒性。

2）探讨最优的稀疏度

为了探讨参数 k 的最优值，我们将 k 从 10%变到 90%，其结果如下：

我们发现，因为 IEMOCAP 是一个相对较小的数据库，当 k 的值大于 50%时，模型开始过拟合，并维持 UA 值不变。而对于大规模的数据集 LSSED，当 k 的值大于 50%时，UA 值因为噪声信息的引入而快速下降。相反，当 k 小于 50%时，由于模型使用到的信息太少，只能收敛到一个较差的局部点，性能也会变差。因此，我们将 k 的值设置为 50%。

3）多模态交互分析

使用 CCAB 的数量代表不同模态之间的交互次数。当 CCAB 的数量从 0 增加到 3 时，模型的性能逐步提升。当数量为 3 时，模型取得了最好的性能。这也说明模态之间进行多次交互的重要性。