解读 ICDE'22 论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法
本文分享自华为云社区《解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法》,作者:云数据库创新 Lab 。
导读
本文(Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection)是由华为云数据库创新 Lab 联合丹麦奥尔堡大学与电子科技大学发表在顶会 ICDE'22 的文章。该文章针对时间序列离群点检测问题,提出了基于自动编码器(AE)和鲁棒的主成分分析(RPCA)结合的兼具鲁棒性和可解释性的深度神经网络算法鲁棒自动编码器(RAE)和鲁棒双自动编码器(RDAE),并通过大量的实验证明 RAE 和 RDAE 算法能有效提高时间序列离群点检测的准确度,鲁棒性和可解释性。ICDE 是 CCF 推荐的 A 类国际学术会议,是数据库和数据挖掘领域顶级学术会议之一。
1. 摘要
随着数据挖掘技术在制造业、众包和交通等领域的普及,大量的时序性数据被产生及应用。本文研究的是时间序列的离群点检测问题,旨在解决时间序列离群点检测难以兼具鲁棒性和可解释性的问题。
鲁棒性:在无监督的情况下,训练数据可能已经包括了离群值。由于编码器压缩了输入时间序列中的所有观测值,因此产生的潜在表征对离群值很敏感。特别是当它们的幅度很大时,少量的离群值仍然可能污染潜在的表征。训练数据中的离群值有可能污染潜在表征,使潜在表征也捕捉到离群值模式;因此一些离群值可能有小的重建误差(图 1b 中的红色曲线),很难从干净的数据中分离出来。这对准确性产生了不利的影响。例如,图 1b 中的蓝色曲线显示了从被污染的潜在表征中重建的时间序列。这就产生了一些重建误差较小的离群值,使得它们很难被发现(见图 1b 中的橙色区域)。为了避免这种情况,需要采用鲁棒的解决方案,使潜像表征受训练数据中离群值的影响较小。
可解释性:自动编码器将具有较大重建误差的观测值视为离群值,给定一个输入时间序列\mathcal{T}T,自动编码器将重建洁净的时间序列\hat{\mathcal{T}}T^。如果输入时间序列中的观测值与重建时间序列中的相应观测值有很大的偏差,即相应的重建误差\mathcal{T}-\hat{\mathcal{T}}T−T^很大,那么自动编码器就把这些观测值看作是离群值。然而现有的自动编码器产生的重建时间序列\mathcal{T}T 往往比较复杂(例如,图 1b 中的蓝色曲线),致使用户难以理解哪些观测值应该出现在正常状态下。这就要求有更多的可解释的解决方案,例如重建的时间序列具有一个易于人类理解的模式(例如图 1c 中的蓝色曲线)。

图 1.鲁棒性和可解释性说明
本文针对以上挑战提出了相应的解决办法,主要贡献如下:
本文提出了两个用于无监督时间序列离群点检测的自动编码器框架 RAE 和 RDAE,提供了更好的鲁棒性和可解释性。
本文提出了一种 post-hoc 可解释性分析技术。该方法能够对基于 AE 的离群点检测方法的可解释性进行量化分析。
RAE 和 RDAE 算法的准确率和可解释性在真实的时间序列数据集上击败了现有的方法。
2. 背景


图 2. 自编码器流程图
模型设计:首先,本文提出的模型支持时间序列问题。第二,本文提出的模型具有鲁棒性。第三,本文提出的模型具备可解释性。第四,本文提出的模型支持非线性关系。第五,本文支持多视角的学习机制。基于上述分析,本文提出两个兼具鲁棒性和可解释性的自动编码器框架 RAE 和 RDAE,其差异性如图 3 所示:

图 3.模型差异性
3. RAE 和 RDAE 算法设计
本文提出的 RAE 和 RDAE 算法结合了自编码器的支持时间序列,支持非线性拟合和 RPCA 具有良好鲁棒性和可解释性的优势。我们会先后介绍这两个模型。
蕾
RAE 结合了自编码器和 RPCA 的优点,其流程图如图 4 所示:

图 4.RAE 流程图

RAE 算法的具体细节如图 5 所示:

图 5.RAE 算法细节

雷达
多视图学习已经被证明能够通过向学习器提供补充信息来提高学习算法的鲁棒性,例如矩阵视图和时间序列视图。受此启发,基于 RAE 的多视图框架 RDAE 被提出。其流程图如图 6 所示:

图 6.RDAE 流程图

RDAE 算法的细节如图 7 所示:

图 7.RDAE 算法细节

4. 可解释性
模型的可解释性指模型的输出是否易于人类理解并接受。图 8 介绍了何为可解释性:

图 8.可解释性介绍
图 8a 中的蓝色曲线为输入的时间序列,红色点为离群点。图 8b 的模型展示了同事具备高准确率和可解释性的模型。图 8c 展示了高准确率但是不具备可解释性的模型。图 8d 展示了具备可解释性但是低准确率的模型。可解释性高的模型输出的洁净时间序列具有比较简单的解析形式,即具备简单的且可以被人类理解的函数形式。
本文提出了两种 post-hoc 量化可解释性方法,基于 PRM 的可解释性分数和基于 SSA 的可解释性分数。提出的方法可以量化不同的基于自编码器的离群点检测算法的可解释性。我们会依次介绍这两种方法。
基于 PRM 的可解释性分数
该方法的思想是将拟合的洁净时间序列与 N 阶多项式求解平方根均方误差(RMSE),设定阈值\gammaγ,若 RMSE 小于该阈值,则认为洁净时间序列觉有 N 阶多项式序列可解释性。求解模型输出可以满足要求的最小 N。当 N 越小,则认为模型的输出更具有可解释性。其公式如下:

SSA-based Explainability Scores
该方法的思想是将拟合的洁净时间序列与包含 N 个组件的 SSA 算法输出求解平方根均方误差(RMSE),SSA 算法可将时间序列分解成 N 个具有趋势性和周期性的时间序列的线性组合。设定阈值\gammaγ,若 RMSE 小于该阈值,则认为洁净时间序列觉有包含 N 个组件的 SSA 可解释性。求解模型输出可以满足要求的最小 N。当 N 越小,则认为模型的输出更具有可解释性。其公式如下:

5. 实验
本文选取了七个时间序列数据集 GD,HSS,ECG,NAB,S5,2D,SYN,并选取了 15 个现有的离群点检测方法作为 baseline。
实验结果 本文在七个数据集上分别做了对比实验,用 ROC 和 PR 作为比较手段,总体实验结果如图 9 所示:

图 9. 实验结果
实验表明,RAE 和 RDAE 在绝大多数情况下取得了最优表现。
此外,本文还完成了参数学习的研究,结果如图 10 所示:



图 10.参数学习
我们对模型的五个模块进行了消融实验,实验证明每个模块都发挥了作用,结果如图 11 所示:

图 11.消融实验
最后本文还测试了算法运行时间的对比,实验表明本文提出的方法在兼具鲁棒性和可解释性的同时运行时间也有一定的优势。结果如图 12 所示:

图 12.运行时间实验
6. 结论
本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架。这些框架首次尝试改善现有的基于神经网络的自动编码器的两个不足:低可解释性和对离群值的高脆弱性。RAE 和 RDAE 将一个时间序列分解为一个洁净时间序列和一个离群时间序列,并使它们对离群值具有鲁棒性和可解释性。我们提供了一种 post-hoc 可解释性分析方法来量化模型的可解释性。实验研究表明本模型超过了最先进的方法。
华为云数据库创新 lab 官网:https://www.huaweicloud.com/lab/clouddb/home.html
华为伙伴暨开发者大会 2022 火热来袭,重磅内容不容错过!
【精彩活动】
勇往直前·做全能开发者→12 场技术直播前瞻,8 大技术宝典高能输出,还有代码密室、知识竞赛等多轮神秘任务等你来挑战。即刻闯关,开启终极大奖!点击踏上全能开发者晋级之路吧!
【技术专题】
未来已来,2022 技术探秘→华为各领域的前沿技术、重磅开源项目、创新的应用实践,站在智能世界的入口,探索未来如何照进现实,干货满满点击了解
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/5bac061edcb929d4d2ba53f39】。文章转载请联系作者。
评论