顶会最强的前 20%！电影情感效应预测论文拿下 ACMMM Oral 收录！

2022-10-27
北京
本文字数：5733 字
阅读完需：约 19 分钟

本文内容出自阿里文娱 AI 大脑北斗星团队，研究成果已发表在 ACMMM 2022

论文名：Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis

作者：张杰、赵寅、钱凯

背景

三流的导演拍故事，一流的导演拍情绪。纵观古往今外，经典的高分电影之所以经久不衰，无一不是因为引发了观众心理上的共情。尤其是在快节奏、高压力的现代生活中，观众观看影视剧的主要目的就是为了寻求情感上的满足与释放。因此，综合视听语言等因素，搭建一条合适的“情感线”是电影成功的关键。那么，如果我们可以在电影上线之前，提前预测电影对于观众的情感效应，刻画出这条“情感线”，对于电影的评估定级、剪辑优化等方面无疑有着巨大的帮助。为此，我们展开了电影情感效应预测方面的研究工作。

简介

电影情感效应分析旨在预测观众在观看电影时所产生的情感，其在电影内容理解、高潮检测、质量评估、情感多媒体检索等方面有着重要的应用。在情感计算领域，情感的标签可以分为两种：1 是离散的情感标签，如开心、伤心等等；2 是连续的情感模型，如使用最多的二维 VA 情感模型（如图 1 所示），其中 Valence 代表的是情感的正负，Arousal 代表的是情感的强度，两者的取值均在-1 到 1 之间。相比于离散的标签，连续的情感模型可以更细致全面地描述情感的各个维度，在学术界和工业界有着更加广泛的应用。因此，我们采用了 VA 情感模型，主要目标就是根据影视剧的内容，预测观众的 VA 情感。

图 1 VA 情感模型

要正确地预测观众的情感，上下文信息十分关键，同样的一段场景在不同的情景下可能会产生不同的情感效应，比如同样一段打斗的画面，在犯罪剧中是令人紧张的，在喜剧中则可能是幽默风趣的。因此，有效地建模上下文信息对于电影的情感效应预测至关重要。

为了建模上下文信息，最常用的经典模型可以分为两种：循环神经网络（如 LSTM[1]等）和 Transformer[2]。然而，在面对电影这种动辄几千秒的长序列时，这些时序模型存在着一定的缺陷：

a. 循环神经网络的记忆能力有限，难以建模长时依赖

b. 循环神经网络采用的 BPTT 的更新方式存在梯度消失和爆炸的问题，此外其需要存储大量的中间变量，不适用于特别长的序列

c. Transformer 的计算量随着时序的增加呈平方级增加，同样不适用于特别长的序列

受限于常用时序模型的这些缺陷，目前大部分的方案都是将电影切分成小片段，然后独立地去预测每个片段的情感。然而这种方式忽略了片段之间的联系，无法建模长时序的上下文信息，对于正确理解电影内容、判断电影情感的整体走势有着一定的阻碍。

为了解决这些问题，我们提出了基于强化学习的记忆网络，其核心在于利用记忆模块存储历史信息，并利用强化学习得到记忆模块的更新策略。如图 2 所示，我们方法存在以下优势：

a. 通过记忆模块提升了模型的记忆能力

b. 利用强化学习的时序差分法，减小了计算量和存储量，避免了梯度消失和爆炸的问题

c. 利用强化学习中的价值网络和策略网络，有效捕捉长时序依赖

图 2 基于强化学习的记忆网络优势示意图

为了验证我们方法的有效性，我们在多种任务的多个数据集上进行了实验，结果均达到了 SOTA。

下面我们将对所提方案展开详细的介绍。

方案

模型的整体框架如图 3 所示：给定一个电影，我们将其划分成连续的片段 $C = c_{1}, c_{t}, \dots, c_{T}$ ,对于一个电影片段 $c_{t}$ ，我们提取多模态特征，并将这些特征编码成向量表征 $e_{t}$ 。然后向量表征 $e_{t}$ 和历史记忆信息 $m_{t - 1}$ 组成状态输入到策略网络μ中去，产生一系列的动作 $a_{t}$ ，这些动作会用来选择性的更新记忆模块中的内容。然后基于更新后的记忆模块 mt 和向量表征 $e_{t}$ ，作出最终的预测 $y_{t}$ 。预测结果的误差会作为奖励 $r_{t}$ ，指导价值网络 Q 学习未来的期望奖励，价值网络则会用来指导策略网络学习长时序依赖。

图 3 模型整体框架

下面我们将对模型中的特征提取模块、基于强化学习的记忆网络部分、以及模型训练相关的内容进行详细的介绍

特征提取

为了得到富含情感信息的表征，我们提取了 5 种模态的特征：利用 VGGish[3]提取音频特征；利用背景音乐情感模型提取 bgm 情感特征；利用在 Places365[4]上预训练的 VGG16[5]提取场景特征；利用 OpenPose[6]的主干部分提取人物姿态特征；利用在 RAF[7]上预训练的 Xception[8]提取人物表情特征。我们将这些模态的特征在时间维度上对齐并做 concat 操作，然后利用 LSTM 来融合时序信息，并取最后一个时间步的隐藏状态作为电影片段的向量表征。

K 代表的是每个电影片段的帧数，M 代表的是模态的总数， $f_{1 : k : m}^{t}$ ∈ $R^{K \times d_{m}}$ 代表的是提取的第 m 个模态的特征，[⋯]代表的是 concat 操作， $L S T M_{- 1}$ 代表的是取 LSTM 最后一个时间步的隐藏状态。

基于强化学习的记忆网络

基于特征提取部分得到的电影片段的向量表征，我们利用记忆模块和基于强化学习的更新策略来捕获长期依赖。

记忆模块

记忆模块是一个可读可写的矩阵 $m_{t}$ ∈ $R^{N \times d}$ ，用来存储历史信息以增强模型的记忆能力，其中 N 代表的是记忆的个数，d 代表的是记忆的维度。在电影的起始时刻，记忆模块的内容会被初始化为可学习的变量，随着电影的进行，记忆模块中的内容会在更新策略的控制下逐步更新。

为了利用更新后的记忆模块得到最终的预测结果，在时刻 t，我们计算得到片段表征 $e_{t}$ 和更新后记忆模块 $m_{t}$ 的每个记忆之间的相似度，并利用这个相似度对记忆模块的内容进行加权求和，然后在经过一个全连接层得到最终的预测结果。

其中， $w_{t}$ (n)代表的是第 n 个记忆的权重， $w_{t}$ =softmax(FC([ $e_{t}$ , $m_{t}$ ]))， $θ_{p}$ 代表的是预测相关的参数。

基于强化学习的更新策略

不同于传统记忆网络中的写操作，我们设计了一个基于强化学习的更新策略来更新记忆模块的内容，以便在更新过程中可以更有效地考虑长时依赖性。由于我们设计的动作空间是连续的，我们采用了深度确定性策略梯度算法（DDPG[9]），其包含的基本元素如下：

状态

状态中需要包含决策所需要的全部信息，这里我们将电影片段的向量表征和记忆模块的历史信息定义为状态 st={ $e_{t}$ , $m_{t - 1}$ }

动作和策略网络

参考 NTM[10]中的写操作，我们将动作设计成了 4 部分 $a_{t}$ ={ $a_{t}^{a t t}$ , $a_{t}^{f}$ , $u_{t}^{c}$ , $a_{t}^{i}$ }： $a_{t}^{a t t}$ ∈ $R^{N \times 1}$ 代表的是每个记忆需要更新的程度； $a_{t}^{f}$ ∈ $R^{N \times d}$ 决定每个记忆中需要被遗弃的部分； $u_{t}^{c}$ ∈ $R^{N \times d}$ 代表的是新输入的内容； $a_{t}^{i}$ ∈ $R^{N \times d}$ 代表的是新内容中需要被保存的部分。基于这些动作，记忆模块的更新过程如下式所示：

其中 1 代表的是全 1 的矩阵。为了得到这些动作，我们设计了相应的策略网络 $a_{t}$ =μ( $s_{t}$ ∣ $θ_{μ}$ )

奖励和价值网络

因为我们的任务是回归任务，我们把奖励定义为 $r_{t}$ =−mae( $y_{t}$ , $g_{t}$ )。对于分类任务，可以采用预测与真值的对数似然作为奖励。为了预测未来的期望奖励，我们设计了相应的价值网络。不同于传统的动作价值网络，我们采用了后状态[11]价值网络 Q( $s ̂_t$ )(如图 4 所示)，其中后状态为 $s ̂_t$ ={ $e_{t}$ , $m_{t}$ }。与动作价值网络相比，后状态价值网络的输入空间大幅减小，训练效率更高更稳定。

图 4 价值网络结构

模型训练

为了保证模型训练的稳定性，我们针对性的设计了目标函数和探索策略。

目标函数

我们遵循 DDPG 的算法流程，迭代地更新价值网络和策略网络，价值网络的目标函数如下所示：

其中λ代表的是奖励衰减因子。由上式可知，价值网络 Q 的目标值 $r_{t}$ + $λ_{Q}$ ( $e t + 1$ ,T( $m_{t}$ ,μ( $s_{t + 1}$ )))的计算会用到价值网络本身，这会导致训练的不稳定性。因此，遵循 DDPG 中的方法，我们设计了目标价值网络 Q′和目标策略网络μ′，他们的结构和对应的价值网络和策略网络一致，权重的更新采用的是滑动均值的方式： $θ_{Q' / μ'}$ = $τ θ_{Q / μ}$ +(1−τ) $θ_{Q' / μ'}$ 。由此，价值网络的最终目标值为： $r_{t}$ +λ_Q′( $e_{t + 1}$ ,T( $m_{t}$ ,μ′( $s_{t + 1}$ )))。

原始的策略网络的目标函数为： $m a x_{θ μ}$ Q( $e_{t}$ ,T( $m_{t - 1}$ ,μ( $s_{t}$ )))，为了同时更新策略网络部分和结果预测部分，我们对目标函数向前展开了一个时间步，最终的策略网络和预测部分的目标函数如下所示：

$m a x_{θ μ, θ p}$ ( $r_{t}$ +λQ( $e_{t + 1}$ ,T( $m_{t}$ ,μ( $s_{t + 1}$ ))))在训练过程中，两个目标函数迭代的进行更新。

探索策略

为了进一步保证训练的稳定性，防止模型陷入到局部最优或者完全不收敛的窘境，我们针对动作设计了相应的探索策略，具体如下所示：

其中 N(0,0.05)代表的是均值为 0，方差为 0.05 的高斯噪声，clip(x,a,b) $c l i p (x, a, b)$ 代表的是把 x 裁剪到[ $a, b$ ]， $Z_{t}^{a t t}$ 代表的是标准化因子。

结果

SOTA 对比

为了验证我们方法的有效性，我们在多种任务的多个数据集上展开了实验，比如电影情感预测任务的 LIRIS-ACCEDE[11]数据集、音乐情感预测的 PMemo[12]数据集、视频摘要的 Tvsum[13]和 Summe[14]数据集，实验结果相比于 SOTA 方法均有大幅的提升。

表 1 LIRIS-ACCEDE 数据集结果对比

表 2 PMemo 数据集结果对比

表 3 Tvsum 和 Summe 数据集结果对比

消融实验

记忆模块尺寸的影响

为了捕获长期依赖，足够的记忆容量至关重要。为此，我们针对记忆模块的尺寸展开了实验。如图 5 所示，随着记忆模块尺寸的增加，模型的效果逐步提升，当记忆容量增加到一定程度时，模型效果趋于稳定，甚至会由于过拟合而有所下降。在我们的实验中，在记忆模块的尺寸为 10 时，模型效果最好。

图 5 记忆模块尺寸实验结果

强化学习的有效性

为了验证强化学习的有效性，我们设计了 2 个基础方法进行对比实验：1）利用记忆网络，对每个电影片段独立的进行预测。2）利用 TBPTT 算法对记忆网络进行优化。如表 4 所示，基于强化学习的方法取得了最好的效果。

表 4 不同方法实验结果

记忆模块更新过程的可视化

我们对记忆模块的更新过程进行了可视化，具体如图 6 所示。图(a)的横轴为时间维度，纵轴代表不同的记忆位置，颜色的深浅代表记忆更新的程度。图(b)是图(a)中第 7 个记忆的更新程度同情感标签 valence 的对比曲线，可以证实记忆模块中存储的是情感相关的特征。

图 6 记忆模块更新过程

不同模态数据的重要性

我们针对不同的模态组合进行了实验，如表 5 所示，就单模态而言，视觉元素中的场景模态最为有效。综合所有模态可以保证情感信息的完备性，取得了最好的效果。

表 5 模态实验

实例分析

我们给出了模型在测试集的几部影片上的预测结果，如图 7 所示，可以看到，我们模型的预测结果不仅在局部的变化趋势上与真值接近，在全局的变化趋势上也与真值一致，这充分表明了我们的方法在建模长时信息方面的有效性。

图 7 模型在 LIRIS-ACCEDE 测试集上的预测结果

未来工作

在以后的工作中，我们期望展开以下的探索：1.尝试其他强化学习算法。2.从模态融合入手，设计更有效地模态融合策略。3.把我们的方法应用到其他任务上去，如动作检测等等。

参考文献

[1] Hochreiter, Sepp, and Jürgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.

[2] Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. ArXiv abs/1706.03762 (2017).

[3] Shawn Hershey, Sourish Chaudhuri, Daniel PW Ellis, Jort F Gemmeke, Aren Jansen, R Channing Moore, Manoj Plakal, Devin Platt, Rif A Saurous, Bryan Seybold, et al. 2017. CNN architectures for large-scale audio classification. In 2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 131–135.

[4] Bolei Zhou, Agata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. 2017. Places: A 10 million Image Database for Scene Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (2017).

[5] Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).

[6] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2019. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. IEEE transactions on pattern analysis and machine intelligence 43, 1 (2019), 172–186.

[7] Shan Li, Weihong Deng, and JunPing Du. 2017. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2852–2861.

[8] François Chollet. 2017. Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition. 1251–1258.

[9] Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. 2015. Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971 (2015).

[10] Alex Graves, Greg Wayne, and Ivo Danihelka. 2014. Neural turing machines. arXiv preprint arXiv:1410.5401 (2014).

[11] Deunsol Yoon, Sunghoon Hong, Byung-Jun Lee, and Kee-Eung Kim. 2020. Winning the l2rpn challenge: Power grid management via semi-markov afterstate actor-critic. In International Conference on Learning Representations.

[12] task MediaEval 2018. In MediaEval.[6] Yoann Baveye, Emmanuel Dellandrea, Christel Chamaret, and Liming Chen. 2015.LIRIS-ACCEDE: A video database for affective content analysis. IEEE Transactions on Affective Computing 6, 1 (2015), 43–55.

[13] Kejun Zhang, Hui Zhang, Simeng Li, Changyuan Yang, and Lingyun Sun. 2018. The pmemo dataset for music emotion recognition. In Proceedings of the 2018 acm on international conference on multimedia retrieval. 135–142.

[14] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. 2015. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE conference on computer vision and pattern recognition. 5179–5187.

[15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. 2014. Creating summaries from user videos. In European conference on computer vision. Springer, 505–520.

发布于: 刚刚阅读数: 4

阿里巴巴文娱技术

关注

还未添加个人签名 2021-06-09 加入

还未添加个人简介

发布

暂无评论

创作场景