![]()
解决标签自相关和任务过载的双重挑战。
![]()
在时间序列预测领域,研究者们热衷于设计复杂的网络架构——Transformer、线性模型轮番登场。 然而,当大家把注意力都放在模型结构创新时,却忽略了一个关键问题:训练这些模型时使用的损失函数,几乎都选择了时域均方误差(TMSE),这正在悄悄拖累模型性能。
NeurIPS 2025的最新研究揭示了TMSE存在的两大局限:其一,预测标签序列普遍存在自相关性,但TMSE默认各预测步相互独立,导致损失函数有偏;其二,随着预测步数增加,任务数量线性增长,优化难度上升。来自北京大学、小红书等机构的研究团队提出了Time-o1方法,通过巧妙的标签正交变换技术,解决了这两大难题,在多个主流模型上实现了显著的性能提升。
论文题目: Time-o1: Time-series Forecasting Needs Transformed Label Alignment
发表会议: NeurIPS 2025
作者单位: 小红书、浙江大学、北京大学、松鼠AI等
代码链接: https://github.com/Master-PLC/Time-o1
01
问题分析:被忽视的损失函数设计
在时间序列预测任务中,构建高精度的预测模型需解决两个核心问题:(1)如何设计神经网络架构以有效捕捉历史信息;(2)如何制定合理的损失函数以高效指导模型训练。 近年来,研究重点主要集中在模型结构创新,例如提出了Transformer、线性模型等众多架构,而损失函数的设计却鲜有深入探讨。
现有主流方法普遍采用直接预测范式(Direct Forecast,DF)。 在该范式下,模型以一段历史观测为输入,通过神经网络主体提取表征,再配合线性输出头,一次性并行预测未来T步的标签序列,即输出一个长度为T的预测向量。 与传统的迭代预测(iterative forecast)相比,直接预测法因并行性和效率优势而得到广泛应用。
在损失函数层面,DF方法通常选用时域均方误差(TMSE)作为主要优化目标,定义如下:
然而,TMSE类损失函数在训练时序预测模型时存在两个关键问题,使其成为了性能提升的“天花板” 。
1.1 挑战一:标签自相关性导致损失函数有偏
时间序列中,任一观测值往往与其过去观测值高度相关,呈现显著的自相关特点——这是时间序列数据的基本特性。然而,TMSE在计算损失时默认各预测步之间相互独立,忽略了标签序列中各时间步之间的自相关,从而导致其作为损失函数是有偏的。具体见下方定理:
[定理1:自相关偏差]设标签序列 ,其步间相关系数矩阵为 ,则TMSE与真实标签的负对数似然之间的偏差为:
其中 。当且仅当 的不同步不相关时,该偏差才会消失。
1.2 挑战二:任务数量激增导致优化难度加大
TMSE将每个预测步视为独立任务,导致整体任务数量随预测步数T线性增长。当任务数过多时,多任务学习过程中各任务梯度容易冲突,影响优化收敛,最终降低模型性能。长期预测场景(如制造业生产排期、交通流量预测等)对此问题尤为敏感。
02
Time-o1:在变换域定义损失函数
2.1 实现方法Time-o1的核心思想是使用主成分分析(PCA),将标签序列变换为按重要性排序的正交主成分。通过对齐主成分,Time-o1不仅能够有效降低标签之间的自相关性(问题一),还可以减少并行优化的任务数量(问题二),同时依然保留DF方法高效和易于实现的优势。
具体来说,对于第 个主成分,其投影向量可通过如下优化问题得到:
其中 表示第 个主成分。优化目标在于最大化 的方差,也就是最大化该成分承载的信息量。对于 ,则要求新的投影轴需与此前各轴保持正交,避免主成分之间的冗余。
理论分析:可以证明,经PCA得到的主成分彼此去相关,从而消除了标签自相关性在损失计算中带来的偏差(问题一)。此外,主成分的方差会依序递减( 到 ),确保了得到的主成分自然按重要性排序,因此损失函数可以只关注最重要的K个主成分,从而降低优化复杂度(问题二)。所有最优投影向量 可以通过一次奇异值分解(SVD)直接获得,因此Time-o1可以高效计算。
2.2 实现流程
Time-o1的具体流程可分为以下几个步骤:
1. 标准化标签序列:首先对标签序列进行标准化处理,以确保后续PCA的有效性。
2. 计算投影矩阵:对标准化后的标签序列执行SVD,保留与最大奇异值对应的 个右奇异向量,拼接得到最优投影矩阵 。
3. 空间变换:将预测序列及标签序列一同变换至主成分空间,得到标签序列和预测序列的主成分 , 。
4. 计算损失函数:定义变换域损失为:
5. 目标融合:将主成分空间损失与原空间MSE加权融合, 用于平衡两者贡献:
Time-o1是一种模型无关的损失函数,可以支持各类预测模型。
2.3 案例分析
![]()
针对问题一,上图对比了原始标签序列和主成分序列的自相关性。 左图可见,原空间中大量非对角元素明显偏大,约50.5%超过0.25,显示标签序列之间存在强自相关。 右图则基本实现去相关,非对角元素趋近于零,说明将标签变换至主成分空间可有效消除自相关性(问题一)。
![]()
针对问题二,上图展示了原标签与主成分的方差对比。左图中,标签序列各步方差分布较为平均,表明不同步在优化时同等重要。右图中,只有少数几个主成分方差较大,表明主成分的重要性可以清晰区分,可以通过关注最重要的成分,牺牲极少的标签信息来降低优化复杂度(问题二)。
03
实验结果
![]()
Time-o1可以显著提升预测性能。以ETTh1为例,Time-o1将Fredformer的MSE降低了0.016。在其他数据集上的类似提升进一步验证了其有效性。这些结果表明,改进损失函数可以产生与改进架构相当甚至超过的性能提升。
![]()
可视化预测序列发现,虽然使用MSE训练的DF模型捕获了一般趋势,但其预测在处理大变化时(如步骤100-400内的峰值)存在困难。这反映了其在建模高方差分量方面的不足。相比之下,Time-o1通过明确区分和对齐这些重要分量,生成的预测能够准确捕获这些高方差分量,对大幅波动的拟合能力更强。
![]()
Time-o1相比现有损失函数也取得了较大的性能提升。形状对齐目标(Dilate、Soft-DTW、DPTA)相比DF提供的性能提升很小,这一现象的原因是它们既不缓解标签相关性,也不减少任务数量以简化优化。Time-o1直接解决了这两个问题,从而实现了整体性能的大幅提升。
![]()
论文还进行了消融实验,研究标签正交化和减少任务数量对损失函数性能的贡献。结果表明:仅标签正交化或仅减少任务数量相比DF都有改进,而结合两者取得了最佳结果,展示了两者的协同效应。
![]()
除了PCA,Time-o1还支持其他统计变换方法,如SVD、RPCA、FA等。对比实验表明,不同的统计变换方法相比不做变换的DF方法性能均有提升。相较而言,PCA因能同时实现标签正交化和降维,取得了最佳性能。
![]()
论文还测试了Time-o1在不同神经网络架构上的表现,包括FredFormer、iTransformer、FreTS、Dlinear等,证明了其与模型无关的特性:可以切实有效提升大多数主流时序预测模型的精度。
04
结论
时间序列预测中的损失函数设计存在两个关键挑战:其一,标签自相关导致损失函数有偏;其二,任务数量过多导致优化困难。为此,Time-o1创新性地提出了基于标签变换的损失函数。该方法首先将标签序列映射为按重要性排序的正交主成分,再将模型预测对准最重要的主成分,从而同时解决了两个上述挑战。
Time-o1不仅验证了优化损失函数能提升时序预测性能,还首次将特征工程的思想应用于标签端,为该领域的未来发展提供了新思路。
快来试试Time-o1,让正交损失成为你性能优化的“最后一棒”!
![]()
共同第一作者王浩现为浙江大学控制学院博士研究生,研究方向聚焦于可信学习、多任务学习技术及其在大模型中的应用,以第一作者发表ICML、NeurIPS、KDD等CCF-A类论文十余篇。2022年-2023 年,他曾在蚂蚁金服、微软亚洲研究院科研实习,从事推荐系统理论和实践研究。2025 年起,他在小红书参加RedStar实习项目,进行可信奖励模型、垂域智能体领域的研究工作。
![]()
共同第一作者潘黎铖现为浙江大学控制学院博士研究生,研究方向聚焦于可信学习技术及其在大语言模型中的应用。2024-2025年,他曾在蚂蚁金服、微软亚洲研究院科研实习,从事推荐系统和智能体理论和实践研究。2025 年起,他在小红书参与科研实习,进行可信奖励模型、智能体领域的研究工作。
![]()
通讯作者林宙辰博士现任北京大学智能学院、通用人工智能全国重点实验室教授。他的研究领域包括机器学习和数值优化。他已发表论文360余篇,谷歌学术引用超过42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG会士,多次担任CVPR、NeurIPS、ICML等会议的Senior Area Chair,现任ICML Board Member。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.