网易首页 > 网易号 > 正文 申请入驻

精度效率双冠王!时序预测新范式TimeDistill:跨架构知识蒸馏,全面超越SOTA

0
分享至

新智元报道

编辑:LRST

【新智元导读】TimeDistill通过知识蒸馏,将复杂模型(如Transformer和CNN)的预测能力迁移到轻量级的MLP模型中,专注于提取多尺度和多周期模式,显著提升MLP的预测精度,同时保持高效计算能力,为时序预测提供了一种高效且精准的解决方案。

如何在保证预测精度的同时降低计算成本,是时序预测应用面临的核心挑战。

传统的时序预测模型(如基于Transformer或CNN的复杂结构)虽在精度上表现卓越,但计算开销往往难以满足实际部署需求。而轻量级MLP(多层感知器)虽然具备较高的推理速度,却常因建模能力不足,导致预测精度较低。

这引出了一个有趣的问题:是否可以将MLP与其他先进架构(如Transformer和CNN)结合,以构建一个既强大又高效的模型?

一个直觉的解决方案是知识蒸馏(Knowledge Distillation),通过将更大、更复杂的模型(教师模型)的知识迁移到较小、更简单的模型(学生模型),使其在提升性能的同时实现更高的计算效率。

近期,来自美国埃默里大学、澳大利亚格里菲斯大学等多地的华人科研团队联合提出了一种跨架构知识蒸馏(Cross-Architecture Knowledge Distillation)框架TimeDistill,将MLP作为学生模型,其他复杂先进架构(如Transformer和CNN)作为教师模型,通过蒸馏复杂模型的优势至轻量级模型,实现计算负担大幅降低的同时显著提升预测精度。

相比于教师模型,TimeDistill加快了最多7倍推理速度,降低了最多130倍参数量,同时TimeDistill还在多个数据集上展现了超越教师模型的SOTA表现,为构建高效、高精度的时序预测模型提供了全新思路。

论文链接:https://arxiv.org/pdf/2502.15016

通过蒸馏,TimeDistill在多个数据集上取得超越教师模型的预测精度并实现了最佳的效率平衡。

TimeDistill模型方法

设计思路

首先,研究人员对MLP与其他时序模型的预测模式进行了对比分析。

研究发现,尽管MLP的整体预测精度较低,但往往在某一部分样本上表现出色,突显了其与教师模型之间存在一定的优势互补,强调了通过知识蒸馏向教师模型的学习互补知识的重要性。

为了进一步探索需要蒸馏的时序「知识」,研究人员聚焦于两个关键的时序模式:

  • 时间域的多尺度模式(Multi-Scale Pattern):真实世界的时序数据通常在多个时间尺度上呈现不同的变化。可以观察到,在最细粒度时间尺度上表现良好的模型通常在较粗粒度上也能保持较高的准确性,而MLP在大多数尺度上均表现不佳。

  • 频率域的多周期模式(Multi-Period Pattern):时序数据往往存在多个周期性,性能较好的模型能够捕捉到与真实数据接近的周期性特征,而MLP无法有效识别这些周期性结构。

因此,为了增强MLP的时序预测能力,从教师模型中蒸馏并整合多尺度和多周期模式至关重要。

跨架构知识蒸馏(Cross-Architecture Distillation)

对于任意教师模型,TimeDistill均能有效提炼其在时序预测中的多种模式,并将其压缩进轻量学生模型(例如MLP),使后者具备更强的预测能力。

其中即学生模型的预测,即学生模型的中间特征,S即预测长度,D即中间特征维度,C即变量数量。下标为t即代表教师模型。

多尺度、多周期特征的系统性提炼

多尺度蒸馏(Multi-Scale Distillation):在不同的时间分辨率上分别下采样教师模型与学生模型的预测和中间特征,确保学生模型同时捕捉粗粒度的整体趋势与细粒度的瞬时变化。

多周期蒸馏(Multi-Period Distillation):通过傅里叶变换(FFT)分析频域信息,将教师模型在周期性模式上的优势提炼并传递给学生模型,使后者在应对长周期波动(如季节、年度周期)与短周期干扰(如日内流量峰谷变化)时,都能维持稳定高精度。

由于FFT得到的频谱往往包含很多低频噪声,研究人员通过低温蒸馏使得频率(周期)分布更加锋利,使得学生模型可以直接学习最显著的频率(周期)分量。

理论解释

从理论上,研究人员将多尺度和多周期蒸馏损失诠释为一种数据增强策略,类似于分类任务中的标签平滑(Label Smoothing)。

蒸馏过程实际上等同于将教师模型的预测结果与真实标签进行混合,类似生成了经过Mixup变换的增广样本,这种数据增强带来了以下三个益处:增强泛化,显式融合多种模式,稳定训练,为TimeDistill的优异表现提供了理论支撑。

实验效果

效果全面领先

TimeDistill在8个时序数据集上进行实验,其中7个数据集的MSE指标优于基线教师模型,在所有数据集的MAE指标上均取得最佳表现,展现出卓越的预测能力。

兼容多种教师模型

TimeDistill适用于多种教师模型,能够有效蒸馏知识并提升MLP学生模型的性能,同时相较教师模型本身也有显著提升。

兼容多种学生模型

TimeDistill不仅适用于MLP结构,还可以增强轻量级学生模型的性能。例如,在以ModernTCN作为教师模型的实验中,TimeDistill使两个轻量模型TSMixer和LightTS的MSE分别降低6.26%和8.02%,验证了其在不同学生模型上的适应性。

兼容多种回溯窗口长度

时序模型的预测性能往往随回溯窗口(历史观测长度)变化而波动,而TimeDistill在所有窗口长度下均能提升MLP表现,甚至超越教师模型,体现出对不同时间依赖模式的强大适应能力。

消融实验

TimeDistill通过消融实验进一步验证了模型设计的合理性。值得注意的是,即使去掉Ground Truth监督信号(w/o sup),TimeDistill仍然能够显著提升MLP预测精度,表明其可以从教师模型中有效学习到丰富的知识。

总结

TimeDistill的提出,标志着时序预测领域正在向更高效、更通用的方向发展。它不仅展示了轻量级模型在蒸馏复杂模型知识后所能达到的卓越性能,还为学术界和工业界提供了新的思考方向:

如何在计算成本、模型规模与预测精度之间找到最优平衡?

如何通过知识蒸馏让轻量模型超越其原有能力上限?

未来,期待更多研究机构与企业推动TimeDistill在金融、能源、流量预测等领域的广泛应用,为数据驱动时代的时序分析注入新的动力。

参考资料:

https://arxiv.org/pdf/2502.15016

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闯入使馆的不法之徒细节曝光,中方要求严惩,日本很可能高举轻放

闯入使馆的不法之徒细节曝光,中方要求严惩,日本很可能高举轻放

光电科技君
2026-03-26 19:35:26
初中和高中一对比,你会发现:初中成绩好,高中掉队的概率真不小

初中和高中一对比,你会发现:初中成绩好,高中掉队的概率真不小

好爸育儿
2026-03-26 15:45:14
人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

人不会无缘无故患癌症!研究发现:得癌症的人,离不开这6点

医学原创故事会
2026-03-07 21:55:05
以色列人哭了:这不是该发生在劣等民族身上的吗?

以色列人哭了:这不是该发生在劣等民族身上的吗?

李荣茂
2026-03-23 18:59:00
一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

李健政观察
2026-03-26 18:16:56
美油布油均涨超4%

美油布油均涨超4%

财联社
2026-03-26 19:46:07
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
伊朗一对“情侣”躲进谷仓中拥吻,被发现时,已经吻了2800年

伊朗一对“情侣”躲进谷仓中拥吻,被发现时,已经吻了2800年

北海史记
2026-03-26 13:31:29
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
碘伏再次成为关注对象!医生发现:使用碘伏,千万多留意这几点

碘伏再次成为关注对象!医生发现:使用碘伏,千万多留意这几点

39健康网
2026-03-25 16:00:38
百亿龙头,直线涨停!封单超12万手

百亿龙头,直线涨停!封单超12万手

新浪财经
2026-03-26 16:32:05
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

泠泠说史
2026-03-20 18:31:09
国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

国家出手逮捕的3名华人首富,疯狂敛财坑害百姓,每个都罪有应得

林轻吟
2026-03-25 07:15:32
“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

梨花黛娱
2026-03-24 14:47:07
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
2026全国停车统一收费落地,路边停车再也不用乱花钱了!

2026全国停车统一收费落地,路边停车再也不用乱花钱了!

智慧生活笔记
2026-03-25 10:04:03
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
2026-03-26 20:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
时尚
教育
健康
数码

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

教育要闻

2026人工智能时代下的教育课堂变革

转头就晕的耳石症,能开车上班吗?

数码要闻

1+4核,英特尔酷睿3 304处理器现身基准测试

无障碍浏览 进入关怀版