网易首页 > 网易号 > 正文 申请入驻

TSMamba:基于Mamba架构的高效时间序列预测基础模型

0
分享至

在当今数据驱动的世界中,时间序列预测在多个领域扮演着关键角色。从医疗保健分析师预测患者流量,到金融分析师预测股市趋势,再到气候科学家预测环境变化,准确的时间序列预测都至关重要。然而,传统的预测模型面临着三个主要挑战:

  1. 数据获取难度:对于新兴模式的预测,相关训练数据往往难以获取或收集。例如,LOTSA(最大的公开时间序列数据集)仅包含约270亿个时间点,而相比之下,NLP领域的数据集如RedPajama-Data-v2包含数十万亿个标记。
  2. 泛化能力受限:传统模型难以在不同领域和应用场景之间迁移,每个新场景都需要重新训练模型。
  3. 数据效率低下:在训练数据有限的情况下容易出现过拟合现象。

论文创新与改进

1. 架构创新

TSMamba对传统Transformer架构进行了重大改进:

  1. 线性复杂度实现
  • 传统Transformer:输入长度的二次方复杂度
  • TSMamba:实现线性复杂度,显著提升处理效率
  • 通过选择性状态空间实现信息的高效过滤与保留
  1. 双向编码器设计
  • 前向编码器:捕捉因果关系依赖
  • 后向编码器:提取反向时间关系
  • 时间卷积模块:对齐前向和后向表示

2. 两阶段迁移学习方法

TSMamba采用创新的两阶段迁移学习方法,有效解决了训练数据不足的问题:

第一阶段 - 骨干网络训练:

  • 利用预训练的Mamba语言模型初始化
  • 通过分片式自回归预测优化骨干网络
  • 训练输入嵌入以适应时间序列数据

第二阶段 - 长期预测优化:

  • 恢复完整TSMamba架构
  • 加载第一阶段训练的骨干网络和嵌入层
  • 使用差异化学习率策略进行训练

3. 通道压缩注意力机制

为处理多变量时间序列的复杂性,TSMamba引入了创新的通道压缩注意力模块:

该模块包含四个关键步骤:

  1. 时间卷积:对齐不同通道的时间维度
  2. 通道压缩:将通道数从D压缩到⌈log₂(D)⌉
  3. 注意力计算:在压缩通道维度上提取依赖关系
  4. 通道恢复:将压缩表示映射回原始通道数

这种设计既保证了对跨通道依赖关系的有效捕捉,又避免了过度拟合的风险。

实验评估与性能分析

实验设置

TSMamba在实验中采用以下配置:

  • 3层编码器
  • 768维嵌入大小
  • 固定512长度的输入序列

实验评估分为两个主要场景:零样本预测和全量数据训练。

零样本预测结果

基准数据集评估

在ETTm2和Weather两个标准数据集上进行了全面测试:

  1. 预测周期
  • 短期:96小时
  • 中期:192小时
  • 长期:336小时、720小时
  1. 评估指标
  • 均方误差(MSE)
  • 平均绝对误差(MAE)

关键发现

  • 在长期预测(336和720小时)场景表现突出
  • 与使用更大规模预训练数据的模型相比保持竞争力
  • 在平均性能上达到领先水平,尤其是在数据效率方面

全量数据训练结果

实验数据集

在三个主要数据集上进行了详细评估:

  • ILI (流感数据集)
  • ETTm2 (电力负载数据集)
  • Weather (气象数据集)

性能对比

主要结果:

  1. 整体性能
  • 相比GPT4TS提升了15%的性能
  • 超越了专门的时间序列预测模型PatchTST
  • 在大多数预测长度上保持最优表现
  1. 分数据集表现
  • ETTm2数据集:平均MSE降低至0.257,MAE降低至0.317
  • Weather数据集:平均MSE达到0.222,MAE达到0.258
  • ILI数据集:显著优于所有基准模型
  1. 稳定性分析
  • 在不同预测长度下保持稳定表现
  • 预测结果的方差较小,显示出较高的可靠性

消融研究

为验证各个模块的有效性,进行了详细的消融实验:

  1. 通道压缩注意力模块的影响
  • 完整模型vs去除压缩机制
  • 不同压缩比率的效果对比
  1. 两阶段训练策略的贡献
  • 单阶段vs两阶段训练的效果对比
  • 不同预训练策略的影响
  1. 双向编码器的作用
  • 仅使用前向编码器的效果
  • 双向编码器带来的性能提升

这些实验结果证实了TSMamba各个创新组件的必要性和有效性。

技术细节

论文没给源代码,我们按照论文的思路进行一个简单的复现

关键技术实现

1. 模型核心组件

预处理模块

class PreprocessModule(nn.Module):
def __init__(self):
super().__init__()
# 实例归一化
self.norm = ReverseInstanceNorm()
# 1D卷积实现输入嵌入
self.embedding = nn.Conv1d(
in_channels=1,
out_channels=model_dim,
kernel_size=patch_length,
stride=patch_length
)

通道压缩注意力模块

class ChannelCompressedAttention(nn.Module):
def __init__(self, dim, num_channels):
super().__init__()
# 时间卷积层
self.temporal_conv = nn.Conv1d(dim, dim, kernel_size=3, padding=1)
# 通道压缩
compressed_channels = ceil(log2(num_channels))
self.channel_compress = nn.Conv1d(num_channels, compressed_channels, 1)
# 注意力层
self.attention = nn.MultiheadAttention(dim, num_heads=8)
# 通道恢复
self.channel_expand = nn.Conv1d(compressed_channels, num_channels, 1)

2. 优化策略

  1. 两阶段训练流程
  • 第一阶段:优化骨干网络
  • 第二阶段:微调预测头
  • 使用差异化学习率
  1. 损失函数设计

def huber_loss(y_pred, y_true, delta=1.0):
residual = torch.abs(y_pred - y_true)
quadratic_loss = 0.5 * residual.pow(2)
linear_loss = delta * residual - 0.5 * delta.pow(2)
return torch.mean(torch.where(residual <= delta,
quadratic_loss,
linear_loss))

总结

TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。其主要贡献包括:

  1. 实现了线性复杂度的计算效率
  2. 提出了有效的两阶段迁移学习方法
  3. 设计了创新的通道压缩注意力机制

这些创新为时间序列预测领域提供了新的研究方向和实践指导。随着技术的不断发展,我们期待看到更多基于TSMamba的改进和应用,推动时间序列预测技术继续向前发展。

https://avoid.overfit.cn/post/7813f935a8584f4199d146bce348f787

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
本想秀恩爱,没想到成笑柄,自毁体面的郭富城,证实熊黛林没说谎

本想秀恩爱,没想到成笑柄,自毁体面的郭富城,证实熊黛林没说谎

白面书誏
2026-04-22 16:18:08
油车换电车1年真实感受:普通人别跟风!买车前没人告诉你的真相

油车换电车1年真实感受:普通人别跟风!买车前没人告诉你的真相

华庭讲美食
2026-03-28 17:08:13
网红莫氏鸡煲凉透了?从通宵排队到空无一人,终究逃不过昙花一现

网红莫氏鸡煲凉透了?从通宵排队到空无一人,终究逃不过昙花一现

椰青美食分享
2026-04-24 17:53:28
消失的彭加木:一场精心计划的逃亡?隐藏在罗布泊中的离奇秘密

消失的彭加木:一场精心计划的逃亡?隐藏在罗布泊中的离奇秘密

史之铭
2026-04-24 14:42:57
湘南民宅翻修惊现毛主席80年前旧照,专家鉴定弥足珍贵可补史遗缺

湘南民宅翻修惊现毛主席80年前旧照,专家鉴定弥足珍贵可补史遗缺

云霄纪史观
2026-04-14 02:08:48
明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

青橘罐头
2026-04-22 09:59:06
忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

忠县惊现特大谋杀案!副县长办公室内惨遭杀害,真相引人深思!

人生录
2026-04-24 09:13:06
老球王戴维斯:我不想贬低丁俊晖,但谁都知道赵心童是更好的球员

老球王戴维斯:我不想贬低丁俊晖,但谁都知道赵心童是更好的球员

杨华评论
2026-04-24 03:04:33
如何通过霍尔木兹海峡:四步走,拒美元

如何通过霍尔木兹海峡:四步走,拒美元

红星新闻
2026-04-24 17:16:05
原来他们是夫妻,彼此初恋结婚20年零绯闻,如今一起出演《金关》

原来他们是夫妻,彼此初恋结婚20年零绯闻,如今一起出演《金关》

凡知
2026-04-24 14:48:58
国产车厂集体“倒戈”,23票否决华为后,现在排队等余承东回消息

国产车厂集体“倒戈”,23票否决华为后,现在排队等余承东回消息

华庭讲美食
2026-04-24 12:41:32
23胜1负仍伤退!萨巴伦卡:身体反复出问题,我真的很难过

23胜1负仍伤退!萨巴伦卡:身体反复出问题,我真的很难过

网球之家
2026-04-24 15:33:32
消息称小米汽车4月交付量约3.5万辆 累计交付已超65.5万辆

消息称小米汽车4月交付量约3.5万辆 累计交付已超65.5万辆

CNMO科技
2026-04-24 13:36:19
旅游路上怎么全是大妈?大爷都去哪儿了?网友分析让人爆笑到飙泪

旅游路上怎么全是大妈?大爷都去哪儿了?网友分析让人爆笑到飙泪

西楼知趣杂谈
2026-04-18 15:31:29
成都天府新区投资集团两任董事长被查

成都天府新区投资集团两任董事长被查

界面新闻
2026-04-24 17:46:03
导弹直逼上海?中方忍无可忍,打出禁空令,覆盖范围超台湾两倍

导弹直逼上海?中方忍无可忍,打出禁空令,覆盖范围超台湾两倍

混沌录
2026-04-23 16:50:19
英特尔Q1财报 ,狠狠打了华尔街的脸

英特尔Q1财报 ,狠狠打了华尔街的脸

华尔街见闻官方
2026-04-24 10:06:49
算命大师不敢给郭晶晶看相,说她破了相书定律。

算命大师不敢给郭晶晶看相,说她破了相书定律。

TVB的四小花
2026-04-24 16:53:39
焦虑写在脸上?美媒:中国正趁天下大乱,闷声不语成为头号强国

焦虑写在脸上?美媒:中国正趁天下大乱,闷声不语成为头号强国

无情有思ss
2026-04-24 17:55:22
好消息,湖人队卢卡·东契奇现身训练场,备战与火箭队第3场比赛

好消息,湖人队卢卡·东契奇现身训练场,备战与火箭队第3场比赛

好火子
2026-04-24 05:56:18
2026-04-24 19:08:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1979文章数 1461关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

31人抢的小鹏事故车被36800元拍下 车主在车祸中身亡

头条要闻

31人抢的小鹏事故车被36800元拍下 车主在车祸中身亡

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

健康
本地
房产
游戏
手机

干细胞如何让烧烫伤皮肤"再生"?

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

房产要闻

三亚安居房,突然官宣!

Funcom宣布《流放者柯南》增强版将于5月5日推出

手机要闻

今年首款天玑9500+2K直屏旗舰来了!iQOO 15T五月亮相

无障碍浏览 进入关怀版