论文解读丨 CIKM'22 MARINA:An MLP-Attention Model for Multivariate Time-Series Analysis
本文分享自华为云社区《CIKM'22 MARINA论文解读》,作者: 云数据库创新 Lab 。
华为云数据库创新 Lab 在论文《MARINA: An MLP-Attention Model for Multivariate Time-Series Analysis》中提出了华为自研的自回归时序神经网络模型,可用于时序数据的预测以及异常检测。本文发表在 CIKM’22 上,CIKM 会议是由美国计算机协会(ACM)组织的、数据挖掘领域的顶级国际学术会议,该会议与 2022 年 10 月 17 日到 21 日在美国佐治亚州亚特兰大召开。
论文链接:https://dl.acm.org/doi/pdf/10.1145/3511808.3557386
背景
近年来,随着物联网(IoT)以及智能运维(AIOps)等新兴业务的兴起,时序数据在数据分析领域逐渐成为了一种主要的数据类型。在 IoT 场景,一个系统的各个组件中会实时产生监控时序数据。例如工厂锅炉的压力,温度传感器都会实时上传对应的压力温度数据,飞机的高度,速度传感器也会记录相应的时序数据。同时在 AIOps 场景,一个云服务集群也会实时上传虚拟机的 CPU, MEM, disk usage 等关键指标作为系统健康度,系统负载的评价标准。
一般来说时序数据具有以下两个特点:体量巨大,信息密度低。以云系统监控为例,一台虚拟机的指标检测数量一般在几十的数量级,一个 region 的云监控时间线上报量可以达到上亿的级别。一星期的时序数据存储量就可以超过 10TB。另一方面,绝大部分云监控数据都是稳定不变或者是小范围变化的,只有极少数据是大范围波动,甚至有异常的。因此从海量的时序数据中发掘有意义的信息是非常巨大的挑战。
鉴于时序数据的特点,人工从大量时序数据中发掘有效信息是不可行的。近年来,工业界和高校都投入了很多人力去研究自动化的时序分析算法。时序分析包含时序预测,异常检测,分类,聚类,特征提取等多个方向。本文主要关注的是预测和异常检测两个方面。
问题描述
本文主要关注的是时序预测和异常检测,下面是对这两个问题简单的数学化描述。多维时序预测:本文中,多维时序预测考虑自回归方式,算法输入为长度为
D 代表多维时间序列的维度,tt 代表当前时间。多维时序预测的目标是用当前的历史数据预测未来长度为\etaη的数据,及:
多维异常检测:
多维异常检测的问题描述是,给定历史证据(history evidence)
以及当前的被检测序列
检测序列
中是否存在异常。多维异常检测一般可以用基于预测或基于重构的方法解决。本文中,我们考虑利用基于预测的方法来做异常检测,即首先利用
通过预测算法,计算出目标序列的估计
之后利用目标序列和估计序列的距离作为异常得分并采用固定或动态门限输出异常判别结果:
采用基于预测的异常检测的好处是可以统一利用预测神经网络同时解决预测和异常检测的问题。
问题思考
基于以上的问题定义后,本文专注于设计预测算法。预测算法需要考虑到以下三个要点才能做到预测准确:
时间相关性
时间相关性指多维时间序列中,同一维度的数据点前后时间的相关性,从宏观上体现在该维度的周期性和趋势性。以下图为例,下图是加州湾区的三条道路拥堵程度的时序数据。可以清楚的看到,每一个维度都存在明显的周期性,这种周期性即被归为时间相关性。
空间相关性
空间相关性指的是多维时间序列中,不同维度之间的相关性。从上图可以看到,维度 1 和维度 3 的拥堵程度尖峰的发生时间存在很强的相似性,这种相似性在本文中被归为空间相关性。
平稳性
在工程实现中,平稳性一般指宽平稳或循环平稳,即分布的均值以及自相关函数不随时间变化或随时间周期变化。平稳性是自回归预测的潜在假设,当数据非平稳时,预测值可能发生巨大偏差。在时序数据中,非平稳数据是很常见的,例如下图 ETT 数据集中,数据前后,均值发生较大变化,是典型非平稳数据。常见的预测算法,例如 ARIMA 采取差分的方式迫使数据平稳。
算法设计
归一化方法设计
在设计算法网络之前,首先需要保证网络输入数据的平稳性,即需要限制数据输入的波动范围。ARIMA 等算法采取差分的方式做平稳性保证,然而,差分的方式会使噪声叠加,增大噪声干扰。本文提出利用动态归一化(dynamic normalization)的方式对数据进行平稳性保证。
如上图所示,一般的时序归一化方法如上图的上半部分所示,数据分为训练集合测试集两部分,在归一化的过程中,首先计算训练集的均值方差,并用该均值方差归一化训练集自身。在测试集上,则利用训练集的均值方差归一化测试集。这种做法存在的问题是,当数据非平稳时,测试集的值域可能合训练集差距较大,导致测试集上的预测结果非常差。并且此种归一化并未考虑到时序数据的特性,在测试集上,数据实际上是按照滑动窗口顺序输入神经网络进行预测的,滑动窗口之前的所有数据应该被视为已知并可用于帮助后续预测。
基于以上分析,我们提出动态归一化策略。首先,在训练集上,动态归一化与传统归一化采用相同的策略,即训练集计算整体均值方差并用它来归一化自己。在测试集上,归一化过程以网络输入的滑动窗口为单位。如上图下半部分所示,算法维持一个动态的均值,方差,其初始值为训练集的均值方差。每当一个滑动窗口的数据进入归一化算法,首先该算法利用滑动窗口的数据更新当前的均值方差,并用该均值方差归一化滑动窗口的预测输入。该方法的好处是可以动态保证神经网络输入数据的范围,确保输入数据的平稳性,同时不会引入多余噪声。
时间相关性学习模块
本文的预测网络结构 MARINA 如上图所示,整个网络结构分为三个模块,时间相关性模块,空间相关性模块,输出整形模块。
在时间相关性学习中,一般的备选网络结构包含 MLP,RNN (GRU, LSTM),TCN,attention 等结构。经过在多个数据集上的多次实验对比,我们选择了最高效,预测准确率最高的 MLP,即全连接神经网络。为了增加网络的深度以学习到更复杂的时序波形,我们采取了残差连接的方式,把多个 MLP 模块连接到了一起。具体每个模块之间的传播方式可参见文中的公式 3,4,5。
空间相关性模块
需要注意的是,时间相关性模块中,数据点信息的传播仅仅集中在了时间维度上,不同维度之间的信息并没有进行交互。在多维时间序列中,不同维度的数据常常具有相关性,利用好这些相关性可以增加预测准确度。因此,在时间相关性模块后,我们设计了空间相关性模块,我们把时间相关性模块的输出中的每一维度视为视为图中的一个节点,并送入 self-attention 网络中进行空间相关性学习。在图学习中,信息在图的每个节点中相互传播,以达到学习不同维度相似性的目的。空间相关性模块的传播公式可以参考文中的公式 6,7,8。
输出整形模块
预测输出需要调整到用户需要的长度,因此,在网络的尾部我们加入了一个输出整形模块,这个整形模块由一个 MLP 模块构成,对时间维度进行操作,把时间维度的长度整形到需要的长度。
实验部分
在设计完了预处理算法以及网络结构后,我们做了大量了的实验来验证我们算法的效果。我们的实验分为预测实验,异常检测实验,消融性实验,算法效率实验四部分。
预测实验
预测实验中,我们采用了 ETT 等三个数据集加上 electricity 数据集。
baseline 我们采用了近 5 年中一些著名的预测算法,例如 LSTMa,Reformer, LogTrans, LSTNet, Informer, 以及 HI (historical inertia)。其中需要注意的是,HI 是发表在 CIKM2021 的一个对 baseline 的研究,它对时间序列不做任何操作,仅仅把输入作为输出(当输出长度小于输入时则需要截断)。这样的 baseline 的好处是不受任何参数影响,可以作为任意预测算法有效性的基本验证。
在实验结果中,我们利用 MSE, MAE 两个指标来评估算法预测的准确度。预测长度我们测试了端序列预测 24 步到长序列预测 960 步。粗体代表最佳结果,下划线数据代表第二好的结果。
从实验结果可以看出,在所有指标上,MARINA 的性能都超过了对比算法。值得一提的是 HI 算法的性能也超过了绝大部分对比算法。对于这一现象,我们认为是由数据导致,ETT 数据集普遍都由很轻的非平稳性,以上其他的对比算法都没有对非平稳数据做处理,导致无法获得合理的预测值。
异常检测实验
异常检测实验中,我们采用了 SMD, SMAP, MSL 以及 SMAP 四个经典数据集。
对比算法中同样包含了近几年提出的著名检测算法,包含 AE, EncDec-AD, GANomaly, LSTM-NDT, DAGMM, LSTM-VAE, BeatGan, OmniAnomaly, DAEMON 算法。
在实验结果中,我们利用 F1-score, Precision, Recall 三个异常检测的准确度。
从实验结果来看,MARINA 在 F1-score 指标上可以击败所有的对比算法。
消融性实验
在消融性实验中,我们考虑了归一化策略,时间相关性模块,空间相关性模块对算法预测效果的影响。
归一化策略
在归一化策略的消融性实验中我们对比了算法在 ETTh1, ETTh2 数据集上的预测结果。
从结果中可以看出,利用动态归一化策略的预测结果均好于用普通静态归一化的预测结果。这种性能提升在 ETTh2 数据集上尤为明显,原因是 ETTh2 数据集的非平稳性更加明显。
时间相关性模块
为了证实 MLP 模块在时间相关性学习中的有效性,我们把 MLP 模块替换成了 LSTM, GRU, attention, TCN 四种模块,并与 MLP 做对比。
对比效果如上图所示,其中 LSTM 和 GRU 的预测效果最差,attention, TCN 效果相当,但都低于 MLP 的预测效果。
空间相关性模块
空间相关性模块的原理是让信息在不同维度之间传递以学习不同维度之间的相关性。在对比实验中,我们对比了其余三种空间相关性模块的实现方案:MLP 网络,Mix-Hop 网络,无空间相关性模块。
从上图的对比效果可以看出,MLP, Mix-Hop 在空间相关性学习中甚至起到了反向效果,性能比没有空间相关性模块还差。self-attention 网络相对于无空间相关性学习性能有一定提升。
算法效率对比
在效率对比中,我们对比了 MTGNN, LSTNet, Informer, Informer-, MARINA-, MARINA 的训练+预测时间。其中 MARINA-是指去掉了图学习模块的 MARINA。一般,在有空间相关性的多维时序数据中,图学习才能起到显著效果,在没有明显相关性的多维时序数据中,可以把图学习去掉来减少算法训练,检测时间。
从训练+检测时间对比中可以看出,MARINA 相比于主流算法消耗时间最少。在所有算法中,Informer 由于其超高的复杂度,训练检测时间最高可以达到 MARINA 的 100 倍。
总结
在本论文中,我们提出了 MARINA 神经网络结构,该结构可以用于预测以及异常检测任务。通过充分的实验,我们可以看出,在预测和异常检测任务上,MARINA 都能达到最优的效果,且在训练检测效率上,MARINA 也相比对比算法能达到最高效率。由于 MARINA 的高效,高准确率的特点,其十分适合于云服务中海量监控时间线的场景。目前 MARINA 已经集成在了云数据库创新 lab 的时序分析算法库中。
展现领先科研实力,华为云数据库创新 LAB 三篇论文入选国际数据库顶级会议 VLDB’2022
华为云数据库创新 lab 官网:https://www.huaweicloud.com/lab/clouddb/home.html
We Are Hiring:https://www.huaweicloud.com/lab/clouddb/career.html ,简历发送邮箱:xiangyu9@huawei.com
华为云数据库创新 Lab 时序数据库 openGemini 正式开源,开源地址:https://github.com/openGemini,诚邀开源领域专家加入!
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/b9fb4c434bef1f7a5e48b6fe7】。文章转载请联系作者。
评论