ICIC 2025 Oral | 时间序列异常检测新范式：引入频率增强的Transformer|信号|频域|卷积|鲁棒性|fft

分享至

今天为大家带来一篇面向工业监控、系统运维等关键场景的时间序列异常检测最新进展 —— Frequency-augmented Convolutional Transformer (FreCT)。这项工作从时间域与频率域联合建模出发，引入卷积 + Transformer + 对比学习 + 频率增强多重设计，在四个权威数据集上全面刷新现有方法的表现，在多个真实数据集上取得了超越现有SOTA的表现。

论文名称： FreCT: Frequency-augmented Convolutional Transformer for Robust Time Series Anomaly Detection 文章链接： https://link.springer.com/chapter/10.1007/978-981-96-9921-6_2 代码仓库： https://github.com/shaieesss/FreCT

一、导读

在实际工业系统（如航空航天、水处理、服务器监控、智能电网等）中，时间序列异常检测是保障系统稳定、避免重大损失的关键能力。然而，重构型方法易受到异常点破坏，难以学到稳定的正常模式。同时，仅依赖时间域，会忽略频率域包含的大量判别信息。

为此，本文提出了一种FreCT。该框架：是一个结合 Transformer 长依赖建模能力、卷积局部捕获能力、频率增强分析的新框架能从时间域 + 频率域全面理解序列行为，在四个基准上实现 SOTA。

二、动机

时间序列异常检测面临两大顽疾：

重构类方法易受异常点干扰（核心痛点）：许多对比学习与重构式方法都依赖 MSE 来度量重建误差，但（1）异常点本身的偏离会大幅放大损失；（2）污染正常模式的学习过程；（3）使模型难以获得“纯净”的正常行为。
仅使用时间域，忽略“频率模式”：频率域常用于分析周期性、震荡性、突变性变化，在信号处理中屡试不爽。但现有多数时序异常检测方法：几乎只在时间域操作，忽略了频率特征对区分正常 vs 异常的重要性。

为了克服上述局限性，本文提出了FreCT框架，FreCT使用 KL 散度 + stop-gradient 机制显著降低异常点对训练的破坏；首次将 FFT 频率增强学习与时序对比学习深度结合，提升模型辨识能力。

核心贡献：

本文设计了一个序列级预处理，序列归一化 + patch 切片生成多视图。
提出Patch-based Transformer，建模长依赖关系。
提出卷积模块，捕获局部细粒度异常特征。
提出频率增强学习（FFT），从频率域进一步校验一致性。
提出KL + 绝对差的双域一致性损失，避免重构偏差，提高鲁棒性。

三、方法简述

FreCT 的整体框架如下图所示

FreCT框架

1）异配分离模块：基于边两端节点特征，利用 MLP 分类器判断边为同配或异配，从而将原始图划分为两个子图。

2）残差重标定传播：同配子图：采用低通滤波器传播，并通过残差结构保持原始特征。异配子图：利用滤波器保留高频差异性信号。

3）频率信息融合：拼接同配与异配表示，并引入差分项，通过层归一化提升表达力。

4）关系信息融合：在多关系场景下，将来自不同关系的嵌入进一步拼接融合。

5）分类器：最后通过交叉熵损失 + 辅助异配分离损失联合优化，提升检测鲁棒性。

3.1序列级预处理：Normalization + Patch 生成预处理

FreCT 不使用常见的“按时间戳归一化”，而是采用序列级归一化沿时间维度标准化来避免事件突变导致的噪声扩散，对长序列更鲁棒。随后，将序列按不同 patch sizes 切分成多个通道。这些 patch 视图天然形成对比学习的正样本对，无需额外的数据增强。数学公式如下

3.2 Patch-based Transformer：长程依赖捕获

基于 Patch 的通道生成示意图

FreCT 使用Inter-patch / Intra-patch 双视图 Transformer：

1.Inter-patch：理解 patch 之间的长时依赖（宏观）

2.Intra-patch：理解 patch 内的局部依赖（局部）

两种视角共享参数，并通过自注意力机制生成两条互补的嵌入表示流。

以Inter-patch 视角为例，在该视角下，每个 patch 被视为一个基本时序单元，通过多头自注意力机制建模不同 patch 之间的全局依赖关系。由于注意力权重在 patch 级别计算，为了与原始细粒度时序特征对齐，引入上采样操作以实现特征聚合，其计算过程如下：

Inter-patch 视角建模

在该视角中，我们首先为每个 patch 构造查询（Query）、键（Key）和值（Value）向量，并计算 patch 级别的注意力权重。随后，通过上采样操作将注意力权重映射回原始时间分辨率，从而与细粒度时序特征进行对齐，最终获得 inter-patch 表示。

Transformer 在捕获长依赖方面非常强，但：

对局部扰动（如异常点）较为不敏感

难以捕捉“突然波动”“突变边缘”等细节

其中表示核大小为的卷积运算符。卷积运算后，我们连接高阶表示：

最后，我们通过卷积变换融合多尺度潜在表示：

3.3 多尺度卷积模块：补足 Transformer 的局部建模不足

尽管 Transformer 在建模长程依赖关系方面具有显著优势，但其基于全局自注意力的机制对局部扰动（如异常点）响应相对不足，且难以有效刻画时间序列中的突发波动与边缘变化等细粒度结构特征。为此，我们引入多尺度卷积模块，以增强模型对局部模式与高频变化的感知能力。

具体而言，针对来自 Transformer 编码器的表示，我们采用不同感受野的并行一维卷积算子对其进行特征提取：

其中表示卷积核大小为的卷积运算，用以捕获不同尺度下的局部时序模式。随后，我们将多尺度卷积输出在通道维度上进行拼接，形成融合后的高阶表示：

最后，通过额外的卷积变换与非线性激活函数，对多尺度特征进行进一步融合与重标定，得到最终的局部增强表示：

其中表示非线性激活函数。该多尺度卷积模块有效补充了 Transformer 在局部建模方面的不足，使模型能够同时兼顾全局依赖与局部细节，从而提升对异常模式的识别能力。

3.4频率增强：基于 FFT 的频域一致性建模

为进一步挖掘时间域之外的判别信息，FreCT 将来自 Inter-patch 与 Intra-patch 两个视图的表示映射至频率域进行一致性分析。具体而言，我们对两个视图的输出分别施加快速傅里叶变换（FFT），得到对应的频域表示：

随后，通过计算两者在频率域上的幅值差异来度量其一致性程度：

其中表示频域分量的数量。该频率一致性约束具有以下优势：

有效削弱时间域自相关带来的建模干扰；
促使模型从周期性特征、振荡幅度及频率分布等角度识别异常模式；
显著增强模型对周期性异常与振荡型异常的感知能力。

3.5基于 KL 的一致性损失与 Stop-Gradient 机制

FreCT 的一致性学习基于如下核心假设：正常序列在不同视图下应具有高度一致的潜在表示，而异常序列在不同视图中的表示则会产生明显偏离。基于这一假设，FreCT 在时间域中引入对称 KL 散度作为一致性约束，并结合 stop-gradient 策略以提升训练稳定性。

具体而言，FreCT 采用对称 KL（Symmetric KL）来衡量两个视图之间的分布差异，相较于均方误差（MSE）或 JS 散度，该设计在异常干扰下具有更强的鲁棒性。同时，引入stop-gradient操作以避免两个分支在训练过程中相互牵引，从而防止模型退化至塌陷解。

对应的损失函数定义如下：

其中表示 stop-gradient 操作，用于阻断梯度反向传播。

四、实验结果

(1)总体性能对比

数据集简介

本文在三个数据集上对FreCT模型进行了全面评估，包括MSL、SMAP、SWaT、PSM，并与多个主流基线方法进行了对比。FreCT 在所有数据集上都取得了最佳或接近最佳的F1-score。

与表现最优的基线模型相比，FreCT在MSL、SMAP、SWaT和PSM数据集上分别使F1分数提升了1.01%、0.1%、1.98%和1.83%。这归因于FreCT基于Transformer架构提取序列代表性依赖关系的能力，以及通过两个对比视角的卷积模块把握局部详细语义的特性，这些特性可能为序列学习提供有益的指导。此外，频率信号除时间序列自相关外还提供了有价值的信息，有助于从频域学习不同的表征。因此，FreCT能够准确理解并建模时间序列的正常模式。

比较实验结果

(2)消融实验

消融实验结果

我们首先在表3验证了停止梯度策略在损失函数上的有效性。具体而言，若不采用停止梯度策略，FreCT仍不会陷入平凡解，且性能表现与基线方法相当。当对单一对比视图实施停止梯度策略时，MSL和PSM的性能虽有明显下降，但相较于某些基线方法仍保持优势。而当对两个对比视图同时实施停止梯度策略时，性能表现达到最优，这充分证明了该策略的有效性。

随后我们设计了三种变体，即、和，分别代表不进行归一化操作的FreCT、不包含卷积模块的FreCT以及不采用频率增强学习模块的FreCT，以验证归一化操作、卷积模块和频率增强学习模块的有效性。结果如表IV所示。

从观测结果来看，与、和相比，FreCT取得了最佳性能，这证明了FreCT各组件的有效性。在四个数据集上，、和的平均下降率分别为1.79%、1.26%和0.97%。对于，归一化操作有助于凸显时间序列中的显著特征，并使分布更易于学习。对于，一个不受自相关影响的频率增强学习模块可以从频域中捕获有价值的信息，用于对序列的正常模式进行建模。

(3)参数敏感性实验

时间窗参数敏感性实验

通过实验可以得出,在窗口大小范围[90,120]内，性能相对稳定且优越。小窗口大小无法包含足够的序列信息，过大的窗口大小可能会引入干扰和噪声，阻碍特征学习。

其他参数敏感性实验

通过实验可以得出,当层数为3时，FreCT的性能最好，这表明层数也会影响FreCT学习潜在表示的能力。一般来说，较小的嵌入尺寸可能会导致特征表示的不足，而过大的嵌入尺寸会导致模型崩溃。当头数量为1时，性能最佳。多头注意力机制将使表征不足以区分。

五、总结

本文FreCT 框架提出了一种的新范式，通过时间域 + 频率域一致性学习，通过：

Patch-based Transformer（长依赖）

多尺度 CNN（局部异常）

FFT 频率增强（周期/频域变化）

对称 KL + stop-gradient（稳定训练）

使得模型在各种真实工业场景下都表现出卓越的异常检测能力。

FreCT 的优势非常明确：

✔ 信号建模更全面：时域 + 频域

✔ 更稳健：不依赖重构

✔ 更高效：无需负采样、不做复杂增强

✔ 表现强劲：四大基准全面领先

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.