当前位置：首页 > news >正文

魏县审批建设的网站网站后台设计培训学校

news 2026/4/14 17:56:02

魏县审批建设的网站,网站后台设计培训学校,wordpress 静态加速,服务器和网站空间USAD : UnSupervised Anomaly Detection on Multivariate Time Series 摘要 IT系统的自动监控是Orange目前面临的挑战。考虑到其IT运营所达到的规模和复杂性#xff0c;随着时间的推移#xff0c;用于推断正常和异常行为的测量所需的传感器数量急剧增加#xff0c;使得传统…USAD : UnSupervised Anomaly Detection on Multivariate Time Series 摘要 IT系统的自动监控是Orange目前面临的挑战。考虑到其IT运营所达到的规模和复杂性随着时间的推移用于推断正常和异常行为的测量所需的传感器数量急剧增加使得传统的基于专家的监督方法变得缓慢或容易出错。在本文中我们提出了一种快速而稳定的方法称为基于反向训练的自动编码器的多变量时间序列的无监督异常检测USAD。其自动编码器架构使其能够以无监督的方式进行学习。对抗性训练及其架构的使用使其能够隔离异常同时提供快速训练。我们通过在五个公共数据集上的实验研究了我们的方法的特性从而证明了其鲁棒性、训练速度和高异常检测性能。通过使用Orange专有数据的可行性研究我们能够验证Orange在可扩展性、稳定性、鲁棒性、训练速度和高性能方面的要求。 CCS概念•计算方法→ 神经网络异常检测无监督学习•应用计算关键词异常检测;多元时间序列;神经网络;Autoencoders;敌对的网络;无监督学习;监督 ACM Reference Format:Julien Audibert, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. 2020. USAD : UnSupervised Anomaly Detection on Multivariate Time Series. In Proceedings of the 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 20), August 23–27, 2020, Virtual Event, CA, USA. ACM, New York, NY, USA, 10 pages. https://doi.org/10. 1145/3394486.3403392 一、介绍 IT系统监控是对系统的可测量事件和输出进行监督的过程它被用作确定系统正常运行的参考。对与参考值的偏差进行分析以确定是否存在故障。从历史上看这种分析是由系统监视专家完成的他们为每个测量的事件/输出建立了正常的行为阈值。如果测量值超过了相关的专家定义的阈值则认为系统没有按照预期运行。由于Orange当今IT运营的规模和复杂性随着时间的推移获取测量数据所需的传感器数量急剧增加这使得传统的基于专家定义阈值的方法不再可用因为它们无法扩展。在这种情况下我们的IT系统监控自动化已经成为一种必要。自动化IT系统监控需要开发一种方法来观察传感器获得的不同测量值并从这些测量值推断正常和异常行为。在一组随时间相互关联的度量值上检测意外行为是一个活跃的研究学科称为多元时间序列[2]中的异常检测。在过去的几年里人们开发了许多方法来解决这个问题。最常用的技术包括基于距离的技术如k-最近邻[3]聚类如K-means[9]单类支持向量机[11]分类。然而今天的IT系统已经达到了不再允许使用这些方法的复杂性。实际上随着维度数量的增加由于维度的诅咒这些技术通常会遭遇次优性能。最近基于深度学习的无监督异常检测方法能够推断时间序列之间的相关性从而识别异常行为这一能力受到了广泛关注在检测时间数据异常的深度学习方法中基于循环神经网络[7] (RNNs)的方法非常受欢迎。然而众所周知rnn的结果需要大量的计算需要大量的时间进行训练。因此rnn与时间相关的成本很高能源消耗和二氧化碳排放。对于Orange来说使用高可扩展性同时低能耗的方法是一个关键问题。事实上Orange正在通过其“绿色信息技术与网络”项目不断努力提高能源效率。高可伸缩性和向GreenAI[16]发展的这些限制迫使我们重新思考将要实施的深度学习方法的重要特征。因此开发算法效率高的实现方法是很有必要的。最近引起极大兴趣的其他基于深度学习的方法是基于生成对抗网络的方法[5]。然而由于模式崩溃和不收敛等问题GaN的训练并不总是容易的[1]。在考虑将这些方法实施和部署到Orange的生产中时缺乏稳定性是一个主要障碍。生产环境需要开发健壮的方法这些方法可以定期重新培训。在本文中我们提出了一种新的方法称为多变量时间序列的无监督异常检测(USAD)该方法基于一种自动编码器结构[15]其学习灵感来自于Gans。USAD背后的直觉是其编解码器架构的对抗性培训使其能够学习如何放大包含异常的输入的重建误差同时与基于Gans架构的方法相比获得稳定性。它的体系结构使其快速训练在可伸缩性和算法效率方面满足Orange的期望。本文的主要贡献在于我们提出了一种对抗性训练框架内的编解码器体系结构它允许结合自动编码器和对抗性训练的优点同时补偿每种技术的局限性。我们在公开的数据集上进行了实证研究分析了该方法的稳健性、训练速度和性能。我们使用Orange的专有数据进行了可行性研究以分析所提出的方法是否满足该公司在可扩展性、稳定性、健壮性、训练速度和高性能方面的要求。本文档的其余部分组织如下。第二节讨论了检测多变量时间序列中非监督异常的方法。第三节讨论了我们方法的细节。第4节和第5节描述了实验并演示了我们方法的最先进的性能。二、相关工作时间序列的异常检测是一项复杂的任务已有大量研究[6]。在已经提出的不同分类中方法可以被识别为聚类法[9]、基于密度的方法[11]、基于距离的方法[3]和基于隔离的方法[10]。除了传统的方法外基于深度学习的无监督异常检测方法推断时间序列之间的相关性的能力最近受到了广泛的关注[121820]。深度自动编码高斯混合模型(DAGMM)[21]联合考虑了深度自动编码器和高斯混合模型来模拟多维数据的密度分布。卷积递归编码器解码器MSCRED[20]联合考虑了时间依赖性、噪声鲁棒性和异常严重性的解释。 LSTMVAE[14]通过用LSTM替换VAE中的前馈网络将LSTM与变分自动编码器(VAE)相结合。对抗性学习异常检测(ALAD)[19]是基于双向GANS的它为异常检测任务导出对抗性学习特征。LSTM-VAE通过LSTM网络对时间序列的时间相关性进行建模获得了比传统方法更好的泛化能力。最近Su等人提出了一种用于多变量时间序列异常检测的随机递归神经网络OmniAnomaly它学习具有随机变量联系和平面归一化流程的稳健多变量时间序列的表示并使用重构概率来确定异常[17]。然而这些方法以其训练速度为代价获得了良好的效果。事实上这些方法都没有在其性能标准中考虑到训练时间(即能源消耗)。这就是为什么今天Orange有必要开发在异常检测方面具有与最先进水平相当的性能的方法同时支持允许快速和节能培训的体系结构。三、方法我们首先将3.1节中要解决的问题正式化。在3.2中我们给出了我们方法的公式。最后在第3.3节中我们描述了该方法的实现。 3.1问题的制定单变量时间序列是一系列数据点 T{x1,...,xT},\mathcal{T}\{x_1, ..., x_T\}, T{x1,...,xT}, 每一个都是在特定时间 ttt 测量的过程的观察。单变量时间序列在每个时刻包含一个变量而多变量时间序列一次记录多个变量我们将多元时间序列表示为 T{x1,...,xT},x∈Rm\mathcal{T}\{x_1,...,x_T\},x\in \mathbb{R}^mT{x1,...,xT},x∈Rm。在这项工作中我们关注更一般的多元时间序列设置因为单变量设置是m1的多元时间序列的一种特殊情况。现在考虑一个无监督的学习问题其中 T\mathcal{T}T 被作为训练输入。异常检测指的是识别一个未知观测 x^t\hat{x}_tx^ttTt\mathcal{T}tT 的任务考虑到 ttt 与 T\mathcal{T}T 显著不同的因素因此假设 T\mathcal{T}T 只包含正常数据。未知样本 x^t\hat{x}_tx^t 和正常集 T\mathcal{T}T 的差异量由异常分数测量然后将异常分数与阈值进行比较以获得异常标签。为了模拟当前时间点和之前时间点之间的依赖关系现在让我们定义WtW_tWt即给定时间 ttt 的长度为 KKK 的时间窗口 Wt{xt−K1,...,xt}(1)W_t \{x_{t-K1},...,x_{t}\} \tag{1} Wt{xt−K1,...,xt}(1) 可以将原始时间序列 T\mathcal{T}T 转换为一系列窗口 WW1,...,WTW{W_1,...,W_T}WW1,...,WT用作训练输入。给定一个二进制变量 y0,1y{0,1}y0,1异常检测问题的目标是为一个未知窗口 W^t\hat{W}_tW^ttTt\mathcal{T}tT 基于该窗口的异常值给出标签 yty_tyt表示在时间 ttt 检测是否异常即yt1y_t1yt1 或者 yt0y_t0yt0。为了简单起见在不损失通用性的情况下我们将使用 WWW 表示一个训练输入窗口使用 W^\hat{W}W^ 表示一个未知输入窗口。 3.2 无监督异常检测自动编码器AE[15]是由编码器 EEE 和解码器 DDD 组成的无监督人工神经网络。编码器部分将输入 XXX 映射到一组潜在变量 ZZZ而解码器将潜在变量 ZZZ 映射回输入空间作为重构R。原始输入向量 XXX 和重构 RRR 之间的差称为重构误差。因此训练目标旨在最大限度地减少这种错误。定义如下 LAE∣X−AE(X)∣2(2)\mathscr{L}_{AE} | X -AE(X)|_2 \tag{2} LAE∣X−AE(X)∣2(2) 其中 AE(X)D(Z),ZE(X)AE(X) D(Z),\ Z E(X) AE(X)D(Z), ZE(X) 并且∣⋅∣2|\cdot |_2∣⋅∣2 是指 L2L2L2 正则化。基于自动编码器的异常检测使用重建误差作为异常分数。得分高的分数被视为异常。训练时只使用正常数据中的样本。在推断时AE将很好地重建正常数据而不能重建AE未遇到的异常数据。然而如果异常太小即它相对接近正常数据重建误差将很小因此无法检测到异常。这是因为AE的目标是尽可能重建输入数据尽可能接近正常值。为了克服这个问题AE应该能够识别输入数据是否包含异常然后再进行良好的重建。一种方法判断输入样本是否正常的可能性是生成性对抗网络GAN的特征[5]。GAN是一种无监督的人工神经网络基于两个网络之间的两人极小极大对抗博弈两个网络同时训练。一个网络生成器G旨在生成真实数据而第二个网络充当鉴别器D试图将真实数据与G生成的数据区分开来。G的训练目标是最大化D出错的概率而训练目标D是最小化其分类错误。与基于AE的异常检测类似基于GAN的异常检测使用正常数据进行训练。在训练之后鉴别器被用作异常检测器。如果输入数据与学习数据分布不同则鉴别器将其视为来自生成器并将其分类为假的即异常。然而由于模式崩溃和不收敛等问题GAN训练并不总是容易的[1]这通常归因于生成器和鉴别器之间的不平衡。我们提出的无监督异常检测USAD方法被制定为两阶段对抗性训练框架内的AE架构。一方面这允许通过训练能够识别输入数据何时不包含异常的模型来克服AE的固有限制从而执行良好的重建。另一方面AE架构允许在对抗性训练期间获得稳定性因此解决了GAN中遇到的崩溃和非收敛模式的问题。 USAD由三个元素组成一个编码器网络E和两个解码器网络D1和D2。如图1所示这三个元件连接到一个由两个自动编码器AE1和AE2组成的体系结构中它们共享同一个编码器网络 AE1(W)D1(E(W)),AE2(W)D2(E(W))(3)AE_1(W) D_1(E(W)),\ AE_2(W) D_2(E(W)) \tag{3} AE1(W)D1(E(W)), AE2(W)D2(E(W))(3) 公式3中的架构分两个阶段进行训练。首先对两个AE进行训练以学习重建正常的输入窗口 WWW。其次这两个 AE 以对抗的方式进行训练其中 AE1 将试图愚弄 AE2AE2 旨在了解数据是真实的直接来自WWW还是重建的来自AE1。下文提供了更多详细信息。第一阶段自动编码器训练。在第一阶段目标是训练每个AE重现输入。输入数据W由编码器E压缩到潜在空间Z然后由每个解码器重建。根据等式2训练目标是 LAE1∣W−AE1(W)∣2LAE2∣W−AE2(W)∣2(4)\mathscr{L}{AE_1} | W -AE_1(W)|2 \ \mathscr{L}{AE_2} | W -AE_2(W)|_2 \tag{4} LAE1∣W−AE1(W)∣2 LAE2∣W−AE2(W)∣2(4) 第二阶段对抗性训练。在第二阶段目标是训练AE2以区分来自AE1的真实数据并训练AE1愚弄AE2。来自AE1的数据再次被EEE压缩到 ZZZ然后由AE2重建。使用对抗性训练配置AE1的目标是最小化WWW和AE2输出之间的差异。AE2的目标是最大化这种差异。AE1测试是否成功愚弄了AE2AE2将AE1重建的候选数据与真实数据区分开来。训练目标是 min⁡AE1max⁡AE2∣W−AE2(AE1(W))∣2(5)\min _{A E{1}} \max {A E{2}}\left|W-A E_{2}\left(A E_{1}(W)\right)\right|{2} \tag{5} AE1minmaxAE2∣W−AE2(AE1(W))∣2(5) 计算以下损失 LAE1∣W−AE2(AE1(W))∣2LAE1∣W−AE2(AE1(W))∣2(6)\mathscr{L}{A E_{1}}\left|W-A E_{2}\left(A E_{1}(W)\right)\right|{2} \ \mathscr{L}{A E_{1}}\left|W-A E_{2}\left(A E_{1}(W)\right)\right|{2} \tag{6} LAE1∣W−AE2(AE1(W))∣2 LAE1∣W−AE2(AE1(W))∣2(6) 两阶段训练。在我们的架构中自动编码器有双重用途。AE1将W相位1的重建误差降至最低并将W与AE2相位2重建输出之间的差异降至最低。作为AE1AE2使W的重建误差最小化第1阶段但随后使AE1重建的输入数据的重建误差最大化第2阶段。每个AE的双重目的训练目标表示为进化方案中等式4、6的组合其中每个部分的比例随时间演化 LAE11n∣W−AE1(W)∣2(1−1n)∣W−AE2(AE1(W))∣2(7)\mathscr{L}{A E_{1}}\frac{1}{n}\left|W-A E_{1}(W)\right|{2}\left(1-\frac{1}{n}\right)\left|W-A E{2}\left(A E_{1}(W)\right)\right|_{2} \tag{7} LAE1n1∣W−AE1(W)∣2(1−n1)∣W−AE2(AE1(W))∣2(7) LAE21n∣W−AE2(W)∣2(1−1n)∣W−AE2(AE1(W))∣2(8)\mathscr{L}{A E{2}}\frac{1}{n}\left|W-A E_{2}(W)\right|{2}\left(1-\frac{1}{n}\right)\left|W-A E{2}\left(A E_{1}(W)\right)\right|_{2} \tag{8} LAE2n1∣W−AE2(W)∣2(1−n1)∣W−AE2(AE1(W))∣2(8) 其中nnn 表示一个训练时期。两阶段训练过程在算法1进行总结。图1说明训练阶段上和检测阶段下的信息流的拟议架构。算法 1 USAD 训练算法Smileyan 值得注意的是AE2在严格意义上并不是一个鉴别器因为如果它的输入是原始数据则是来自等式4的损失介入。当其输入是重建时等式5-6中的目标会介入。推论。在检测阶段算法2异常分数定义为 A(W^)α∣W^−AE1(W^)∣2β∣W^−AE2(AE1(W^))∣2(9)\mathscr{A}(\widehat{W})\alpha\left|\widehat{W}-A E_{1}(\widehat{W})\right|{2}\beta\left|\widehat{W}-A E{2}\left(A E_{1}(\widehat{W})\right)\right|_{2} \tag{9} A(W)αW−AE1(W)2βW−AE2(AE1(W))2(9) 其中αβ1\alpha \beta 1αβ1用于参数化FPFalse Positive和 TPTrue Positive之间的权衡。如果 α\alphaα 表现超过 β\betaβ 我们减少了 TP 和 FP 的数量。相反地如果 α\alphaα 表现不如 β\betaβ 我们同时增加 TP 和 FP 的数量。我们将 αβ\alpha \betaαβ 表示高检测灵敏度场景αβ\alpha \betaαβ 表示低检查灵敏度场景。这种参数化方案具有极大的工业价值。它让使用一个经过训练的模型在推理过程中获得一组不同的敏感性异常分数。第5.2节进一步说明了这一点。算法2 USAD检测算法 3.3实现我们的异常检测方法分为三个阶段。训练和检测共有一个第一个数据预处理阶段其中数据被标准化并拆分为长度为K的时间窗口。第二个阶段用于训练方法。该训练是离线的旨在捕捉多变量时间序列预定义部分几周/几个月的正常行为并为每个时间窗口生成异常评分。这种离线训练程序可以定期自动执行注意选择一个不包括太多被视为异常的训练周期。最后一个阶段是异常检测。使用第二阶段训练的模型在线执行。当一个新的时间窗口到来时该模型用于获得异常评分。如果窗口的异常评分高于定义的异常阈值则新的时间窗口被宣布为异常。四、实验设置本节描述了实验和可行性研究中使用的数据集和性能指标。 4.1公共数据集在我们的实验中使用了五个公开的数据集。表1总结了数据集的特征下文对其进行了简要描述。表1:基准数据集(%)为数据集中异常数据点的百分比。安全水处理SWaT数据集。SWaT数据集1是现实世界中生产过滤水的工业水处理厂的缩小版[4]。收集的数据集[13]包括11天的连续操作在正常操作下收集7天在攻击场景下收集4天。水分配WADI数据集。数据集2来自WADI试验台SWaT试验台的扩展[13]。它包括16天的连续运行其中14天是在正常运行情况下收集的2天是在攻击情况下收集的。服务器计算机数据集。SMD是一个新的5周数据集由一家大型互联网公司收集并公开3[17]。它包含来自28台服务器的数据每台服务器都由m33个指标监控。SMD分为两个大小相同的子集前半部分是训练集后半部分是测试集。土壤湿度主动-被动SMAP卫星和火星科学实验室MSL探测车数据集。SMAP和MSL是两个现实世界的公共数据集是NASA的专家标记数据集[8]。它们分别包含55/27个实体的数据每个实体由m25/55指标监控。 4.2 可行性研究:Orange数据集我们的可行性研究是在专门为此目的收集的内部数据集上进行的。收集的数据来自Orange网站广告网络的技术和商业指标。这些数据代表了总共33个连续变量包括27个技术测量值和6个业务测量值。数据集分为两个子集一个对应于约32天的训练集和一个对应于约60天活动的测试集。我们选择了60天的测试对应于橙色的关键时期。为了获得我们的训练我们选择了之前连续几天没有发生任何重大事件的公司。我们获得了32天的训练基本上是正常的。测试集中的异常由领域专家根据事件报告进行标记。其主要特征见表1。 4.3 评价指标精密度P、召回率R和F1分数F1用于评估异常检测性能 PTPTPFP,RTPTPFN,F12⋅P⋅RPRP\frac{T P}{T PF P}, \quad R\frac{T P}{T PF N}, \quad F 12 \cdot \frac{P \cdot R}{PR} PTPFPTP,RTPFNTP,F12⋅PRP⋅R TP表示真阳性FP表示假阳性FN表示假阴性。我们认为一个窗口被标记为异常只要它包含的点中的一个被检测为异常。在[17]中作者使用平均精确度和平均召回率计算F1分数。为了完整性我们在将我们的方法与他们的基准进行比较时报告了这一度量。我们用F1分数来表示这一指标 F12⋅Pˉ⋅RˉPˉRˉF 1^{}2 \cdot \frac{\bar{P} \cdot \bar{R}}{\bar{P}\bar{R}} F12⋅PˉRˉPˉ⋅Rˉ 其中 Pˉ\bar{P}PˉRˉ\bar RRˉ 分别表示平均精确度和召回率。通过将每种评估方法的结果与注释的基本事实进行比较来评估性能。为了与[17]提出的基准进行直接比较我们使用了他们的方法。异常观测通常以连续异常段的形式出现。在这种方法中如果至少一个异常段的观测被正确检测到则该段的所有其他观测也被视为被正确检测到即使它们没有被正确检测到。地面真值异常段以外的观测结果照常处理。我们表示该接近点调整。我们还评估了不属于基准的两个数据集SWaT和WADI的性能无需进行点调整[17]。五、实验与结果我们通过评估USAD的性能并将其与其他最先进的方法5.1进行比较分析不同参数如何影响该方法5.2的性能评估其计算性能5.3以及通过消融研究来研究USAD的关键特性在每次消融研究中我们抑制其中一个训练阶段5.4。最后在第5.5节中我们使用Orange的内部数据报告了一项可行性研究以证明USAD满足在生产中部署所需的要求。 5.1整体性能为了证明USAD的整体性能我们将其与检测多变量时间序列异常的五种无监督方法进行了比较。这些是隔离林IF[10]、自动编码器AE、LSTM-VAE[14]、DAGMM[21]、全异常[17]。由于并非所有用于比较的异常检测方法都提供了选择异常阈值的机制我们测试了每个模型的可能异常阈值并报告了与最高F1分数相关的结果。表2详细列出了在公共数据集上获得的所有方法的性能结果。顶部显示了使用SWaT和WADI数据集获得的结果而表格底部报告了使用剩余三个数据集从[17]提出的基准中获得的结果。在没有点调整数据集的情况下USAD在SWaT、MSL、SMAP和WADI上优于所有方法其F1在SMD数据集上排名第二。平均而言所有数据集表3是性能最好的方法超过了当前技术状态的0.096[17]。表2性能比较。顶部SWaT和WADI数据集中的精确度P、召回率R和F1分数有无点调整。底部使用[17]提出的基准点ajust。P、 R F1和F1*。表3使用点调整的所有数据集的平均性能±标准差。总体而言IF和DAGMM的性能最低。这是两种无监督的异常检测方法它们不利用观测之间的时间信息。对于时间序列时间信息是重要且必要的因为观测值是相关的历史数据有助于重建当前观测值。在USAD中无论是训练还是检测输入都是一系列观察结果其中包含保留这些信息的时间关系。尽管大多数数据集的结果相对较差但IF在WADI上通过积分调整获得了最高的F1分数。这可以通过点调整方法和WADI数据集的性质来解释。IF独立考虑每个观察/时间点并将标签指定给单个时间点而不是窗口。WADI的异常持续时间长点调整验证异常的整体是否被良好检测到。因此与点调整所获得的优势相比IF几乎不受一次只影响一次观测的不良预测FPs的影响尽管可能错过了几个异常但点调整验证了良好预测的整个部分。不同的是AELSTM-VAE使用连续观测作为输入允许这两种方法保留时间信息。无论输入窗口中是否存在异常这些方法都可以执行尽可能好的重建。这不允许他们检测到接近正常数据的异常。USAD通过对抗性训练弥补了基于AE的方法的这一缺陷。OmniAboration也出现了类似的情况因为它没有一种机制可以放大“轻微”异常。 5.2 参数的影响在本节中我们研究了不同参数和因素对USAD性能的影响。所有实验均使用SWaT数据集进行。我们研究的第一个因素是USAD如何响应训练数据的不同下采样率。下采样通过减小数据的大小来加速学习并且具有去噪效果。然而如果丢失太多信息可能会产生负面影响。图2A总结了使用5种不同速率获得的结果[1,5,10,20,50]。结果表明USAD的性能对下采样相对不敏感在不同采样率下的性能相对稳定。这表明下采样率的选择对该方法并不重要。对于我们的实验我们选择了5的速率。这是在消除训练数据的噪声和限制信息丢失之间的最佳权衡。此外它还可以将USAD所需的训练时间减少5分钟。图2参数的影响。精度、召回率和F1分数作为a训练集的下采样率B窗口大小KC潜在空间的维度Z和D训练集中异常的百分比的函数我们调查的第二个因素是USAD如何响应数据中不同的窗口大小。窗口大小对可以检测到的异常行为类型有影响这直接影响异常检测的速度因为检测的速度是由窗口的持续时间定义的。图2B给出了五种不同窗口大小K的结果 ∈\in∈ [5, 10, 20, 50, 100]. 当窗口大小K10时效果最好。当窗口较小时USAD可以更快地检测到行为变化因为每次观察都会对异常评分产生更大的影响。一个太大的窗口将不得不等待更多的观察来检测异常。然而更大的窗口将检测到更长的异常。然而如果异常太短它可能隐藏在过大窗口的点数中。对于Orange一个小窗口更好因为它允许更快的训练和更快的检测。潜变量Z位于m中−维度空间它被假定为小于原始数据之一。我们研究了m在USAD绩效中的作用。图2C显示了m的结果∈ [5, 10, 20, 40, 100]. 结果表明Z的极小维数会导致编码阶段的大量信息丢失而解码器无法恢复这些信息从而导致性能不佳。在另一个极端使用m的大值会导致对训练数据的记忆从而导致性能下降。相反m的中间值似乎对成绩没有太大影响显示出相对较高且稳定的F1成绩。 USAD是在只使用正常样本形成训练集的假设下进行训练的。但在实践中训练集不仅包含正常数据。因此我们研究了当在训练数据集中注入噪声打破这一假设时该方法的性能会受到多大程度的影响。我们在代表训练数据集大小百分比的随机时间点中注入高斯噪声µ0σ0.3。我们将这个百分比从1%到30%不等。在下采样速率5后注入噪声以避免下采样造成噪声衰减。图2D显示了随着噪声水平的增加我们的方法在P、R和F1方面的性能。USAD在高达5%的噪声水平下表现出相对稳定的高性能从而证明了它的鲁棒性。当训练集噪声为10%时性能开始出现轻微下降。然而以F1得分衡量整体表现仍然不错。有趣的是这种性能下降是由较低的精度造成的。由于回忆保持相对恒定这意味着训练集中的噪声越大该方法就越容易检测到误报。这种行为表明随着噪音开始增加USAD不再能够正确地学习训练集中存在的最复杂的行为。因此由于USAD将复杂的正常行为检测为异常测试集中的假阳性数量增加。最后高噪声水平30%会导致性能显著下降。然而在生产环境中进行训练时出现如此高的异常率是不现实的。这意味着在给定的时间段内30%的样本是未被注意到的异常。由于生产中存在如此多的异常情况Orange的事故监督部门错过如此多的事故是不现实的。因此在Orange的生产环境中进行训练时USAD不太可能遇到如此高的异常率。最后我们研究了灵敏度阈值的作用等式9。较大的α对应于在异常评分中更重视AE1自动编码器的重建而较大的β对应于更重视AE2自动编码器的重建见图1。调整检测灵敏度而不必重新训练模型的可能性对Orange非常重要。表4报告了检测到的FPs、TPs和F1分数中α、β变化的影响。表4SWaT数据集不同灵敏度阈值的异常检测结果我们观察到通过增加α和减少β可以减少FPs的数量从0.0到0.9时最多减少50%同时限制TPs数量的下降从0.0到0.9时减少3%。因此α和β的调节允许参数化USAD的灵敏度以满足生产环境的要求。通过一个模型可以实现不同级别的灵敏度以便检测满足Orange监管团队中不同级别的需求。管理人员更喜欢较低的敏感度限制误报的数量但在发生重要事件时向他们发出警告而技术人员更喜欢较高的敏感度允许他们错过最少的事件。 5.3 训练时间在本节中我们将研究USAD的计算性能并将其与OmniAnomaly进行比较OmniAnomaly在异常检测中提供了最接近的性能(见表3)。为此我们测量了5个公共数据集上每个epoch所花费的平均时间。SMD, SMAP和MSL的参考时间是所有实体(即SMD的28台机器SMAP的55台机器和MSL的27台机器)上的一个epoch的平均时间。两种方法都使用NVIDIA GeForce GTX 1080 Ti进行训练。表5给出了得到的结果。USAD在多变量时间序列的无监督异常检测中表现良好同时将训练时间平均缩短了547倍。 5.4消融研究使用SMD、SMAP和MSL数据集我们调查了USAD两阶段培训的效果。图3显示了使用USAD组合、USAD仅进行第一阶段训练自动编码器和仅进行第二阶段训练对抗性时F1成绩的性能比较。在没有对抗性学习账户的情况下训练USAD使用等式4中给出的目标而抑制自动编码器账户使用等式5-6中的目标。图3:有和没有对抗性训练对USAD的影响 GAN启发的对抗性训练相比第二好的选择表现提高了5.88%F1分数即美国陆军部没有对抗性训练相比仅使用对抗性训练表现提高了24.09%。这可以通过USAD引入的放大重建误差效应来解释而不管输入窗口中是否存在异常。因此没有对抗性训练的USAD无法检测到最接近正常数据的异常情况。USAD在对抗性训练中表现不佳的原因是该方法在开始对抗性训练的第2阶段之前没有自动编码器训练无法将重量定位在有利的位置。总之任何训练阶段的消失都会导致较差的表现。例如USAD的两种消融版本的F1分数都低于几种基准方法表2底部。 5.5 可行性研究对Orange来说复杂IT系统监控的自动化是一个挑战。在研究USAD的特性并评估其使用公共数据集的性能后该公司必须确保该方法对其数据同样有效。表6报告了在内部数据集中获得的结果。在两个月的测试数据中USAD能够在不到30分钟内检测到所有重大事件。例如USAD能够在不到30分钟的时间内检测到一个事件负责Orange监管的运营商需要24小时才能检测到该事件图4。此事件是由配置文件中引入的错误导致的该错误允许将广告显示分配给意外的合作伙伴。这导致广告展示的数量总印象增加同时降低了平均展示价格总平均ecpm。因此收入cpm cpc总收入等重要业务指标保持稳定因此运营商无法快速检测到事件。面对要调查的大量指标监管负责人集中精力对业务影响较大的指标进行监管因此解释说检测此配置事件需要24小时。图4:来自可行性研究的时间序列示例其中USAD检测到配置事件。显示了33个时间变量中的24个。橙色方框突出显示了引用的变量。橙色表示5.5节中提到的系列。六、结论在本文中我们提出了USAD这是一种基于自动编码器的多变量时间序列无监督异常检测方法并在受生成性对抗网络启发的对抗性训练中进行训练。其自动编码器架构使其成为一种无监督的方法并允许其在对抗性训练中表现出极大的稳定性。我们使用了一组五个公共参考数据集来研究USAD的预期属性。就标准F1分数而言该方法在公共参考数据集上的性能优于最先进的技术。此外它的快速训练、对参数选择的鲁棒性和稳定性使得模型在工业环境中具有很高的可扩展性。USAD还提供了将其灵敏度参数化的可能性并可以从单个模型生成一组检测水平。这种可能性为Orange的监管团队提供了必要的功能使其能够在大规模基础设施的生产中使用该方法。由于团队需要能够降低检测灵敏度以防止在工作量过高时仅发生重大事件因此推理过程中倍增检测灵敏度的能力使该模型在公司内具有极高的可扩展性并带来重大优势。首先它允许我们通过将监管模型的数量限制为一个来限制培训监管模型所需的时间。第二投入生产的深度学习模型必须由团队监控和监督。通过限制模型数量我们可以减少在生产过程中监督模型所花费的时间从而将监督人员的时间用于不同的任务。利用Orange的内部数据进行的可行性研究提供了结论性结果证实USAD为Orange的IT系统监督自动化提供了一个有希望的方向。它还表明了在部署和执行过程中可能会遇到的一些困难。例如在数据收集过程中第4.2节我们遇到了意想不到的困难无法收集不包含太多异常的连续培训期。这是一个有趣的方面它让我们思考了成功部署USAD所需的基础设施。再现性的补充材料 A.1 实验环境所有实验均在配备英特尔R至强RCPU E5-2699 v42.20GHz和270 GB RAM的机器上进行该机器位于运行CentOS 7 3.10.0版的docker容器中可访问NVIDIA GeForce GTX 1080 Ti 11GBGDDR5X GPU。隔离林IF来自scikit learn 4实现。DAGMM来自Github 5上的Tensorflow实现。LSTM-VAE来自Github实现6。OmniAboration来自作者对Github 7的Tensorflow实现。最后我们在Pytorch开发了USAD和AE。 A.2 在我们的实现中使用的包我们算法实现中使用的相关软件包及其版本如下所示 python3.6.8pytorch1.3.1cuda10.0scikit-learn0.20.2numpy1.15.4 A.3 USAD每个数据集的超参数对于每个数据集我们有4个参数。窗口的大小对应于我们输入的时间序列的大小。预处理过程中的历元数、Z的维数即USAD潜在空间以及最终的下采样率。通过取每个特征的中值进行下采样。表7:每个数据集的USAD超参数。K为窗口大小m为潜在空间的维数。 A.4 USAD实现输入大小对应于窗口的大小乘以多变量时间序列的维数。 A.4.1 Encoder. Linear : input size - input size / 2ReluLinear : input size /2 - input size / 4ReluLinear : input size /4 - latent space sizeRelu A.4.2 Decoder. 两个解码器具有相同的体系结构。 Linear : latent space size - input size / 4ReluLinear : input size /4 - input size / 2ReluLinear : input size /4 - input sizeSigmoid 作为优化器我们使用Adam的pytorch实现和他的默认学习率。

查看全文

http://www.hkea.cn/news/14264081/