Time-o1：时序架构难突破，损失函数辟蹊径|向量|序列|方差|新论文

Time-o1：时序架构难突破，损失函数辟蹊径

2026-02-05 20:20:25　来源: AI科技评论

广东举报

分享至

解决标签自相关和任务过载的双重挑战。

在时间序列预测领域，研究者们热衷于设计复杂的网络架构——Transformer、线性模型轮番登场。然而，当大家把注意力都放在模型结构创新时，却忽略了一个关键问题：训练这些模型时使用的损失函数，几乎都选择了时域均方误差（TMSE），这正在悄悄拖累模型性能。

NeurIPS 2025的最新研究揭示了TMSE存在的两大局限：其一，预测标签序列普遍存在自相关性，但TMSE默认各预测步相互独立，导致损失函数有偏;其二，随着预测步数增加，任务数量线性增长，优化难度上升。来自北京大学、小红书等机构的研究团队提出了Time-o1方法，通过巧妙的标签正交变换技术，解决了这两大难题，在多个主流模型上实现了显著的性能提升。

论文题目： Time-o1: Time-series Forecasting Needs Transformed Label Alignment

发表会议： NeurIPS 2025

作者单位：小红书、浙江大学、北京大学、松鼠AI等

代码链接： https://github.com/Master-PLC/Time-o1

01
问题分析：被忽视的损失函数设计

在时间序列预测任务中，构建高精度的预测模型需解决两个核心问题：（1）如何设计神经网络架构以有效捕捉历史信息；（2）如何制定合理的损失函数以高效指导模型训练。近年来，研究重点主要集中在模型结构创新，例如提出了Transformer、线性模型等众多架构，而损失函数的设计却鲜有深入探讨。

现有主流方法普遍采用直接预测范式（Direct Forecast，DF）。在该范式下，模型以一段历史观测为输入，通过神经网络主体提取表征，再配合线性输出头，一次性并行预测未来T步的标签序列，即输出一个长度为T的预测向量。与传统的迭代预测（iterative forecast）相比，直接预测法因并行性和效率优势而得到广泛应用。

在损失函数层面，DF方法通常选用时域均方误差（TMSE）作为主要优化目标，定义如下：

然而，TMSE类损失函数在训练时序预测模型时存在两个关键问题，使其成为了性能提升的“天花板” 。

1.1 挑战一：标签自相关性导致损失函数有偏

时间序列中，任一观测值往往与其过去观测值高度相关，呈现显著的自相关特点——这是时间序列数据的基本特性。然而，TMSE在计算损失时默认各预测步之间相互独立，忽略了标签序列中各时间步之间的自相关，从而导致其作为损失函数是有偏的。具体见下方定理：

[定理1：自相关偏差]设标签序列，其步间相关系数矩阵为，则TMSE与真实标签的负对数似然之间的偏差为：

其中。当且仅当的不同步不相关时，该偏差才会消失。

1.2 挑战二：任务数量激增导致优化难度加大

TMSE将每个预测步视为独立任务，导致整体任务数量随预测步数T线性增长。当任务数过多时，多任务学习过程中各任务梯度容易冲突，影响优化收敛，最终降低模型性能。长期预测场景（如制造业生产排期、交通流量预测等）对此问题尤为敏感。

02
Time-o1：在变换域定义损失函数

2.1 实现方法Time-o1的核心思想是使用主成分分析（PCA），将标签序列变换为按重要性排序的正交主成分。通过对齐主成分，Time-o1不仅能够有效降低标签之间的自相关性（问题一），还可以减少并行优化的任务数量（问题二），同时依然保留DF方法高效和易于实现的优势。

具体来说，对于第个主成分，其投影向量可通过如下优化问题得到：

其中表示第个主成分。优化目标在于最大化的方差，也就是最大化该成分承载的信息量。对于，则要求新的投影轴需与此前各轴保持正交，避免主成分之间的冗余。

理论分析：可以证明，经PCA得到的主成分彼此去相关，从而消除了标签自相关性在损失计算中带来的偏差（问题一）。此外，主成分的方差会依序递减（到），确保了得到的主成分自然按重要性排序，因此损失函数可以只关注最重要的K个主成分，从而降低优化复杂度（问题二）。所有最优投影向量可以通过一次奇异值分解（SVD）直接获得，因此Time-o1可以高效计算。

2.2 实现流程

Time-o1的具体流程可分为以下几个步骤：

1. 标准化标签序列：首先对标签序列进行标准化处理，以确保后续PCA的有效性。

2. 计算投影矩阵：对标准化后的标签序列执行SVD，保留与最大奇异值对应的个右奇异向量，拼接得到最优投影矩阵。

3. 空间变换：将预测序列及标签序列一同变换至主成分空间，得到标签序列和预测序列的主成分，。

4. 计算损失函数：定义变换域损失为：

5. 目标融合：将主成分空间损失与原空间MSE加权融合，用于平衡两者贡献：

Time-o1是一种模型无关的损失函数，可以支持各类预测模型。

2.3 案例分析

针对问题一，上图对比了原始标签序列和主成分序列的自相关性。左图可见，原空间中大量非对角元素明显偏大，约50.5%超过0.25，显示标签序列之间存在强自相关。右图则基本实现去相关，非对角元素趋近于零，说明将标签变换至主成分空间可有效消除自相关性（问题一）。

针对问题二，上图展示了原标签与主成分的方差对比。左图中，标签序列各步方差分布较为平均，表明不同步在优化时同等重要。右图中，只有少数几个主成分方差较大，表明主成分的重要性可以清晰区分，可以通过关注最重要的成分，牺牲极少的标签信息来降低优化复杂度（问题二）。

03
实验结果

Time-o1可以显著提升预测性能。以ETTh1为例，Time-o1将Fredformer的MSE降低了0.016。在其他数据集上的类似提升进一步验证了其有效性。这些结果表明，改进损失函数可以产生与改进架构相当甚至超过的性能提升。

可视化预测序列发现，虽然使用MSE训练的DF模型捕获了一般趋势，但其预测在处理大变化时（如步骤100-400内的峰值）存在困难。这反映了其在建模高方差分量方面的不足。相比之下，Time-o1通过明确区分和对齐这些重要分量，生成的预测能够准确捕获这些高方差分量，对大幅波动的拟合能力更强。

Time-o1相比现有损失函数也取得了较大的性能提升。形状对齐目标（Dilate、Soft-DTW、DPTA）相比DF提供的性能提升很小，这一现象的原因是它们既不缓解标签相关性，也不减少任务数量以简化优化。Time-o1直接解决了这两个问题，从而实现了整体性能的大幅提升。

论文还进行了消融实验，研究标签正交化和减少任务数量对损失函数性能的贡献。结果表明：仅标签正交化或仅减少任务数量相比DF都有改进，而结合两者取得了最佳结果，展示了两者的协同效应。

除了PCA，Time-o1还支持其他统计变换方法，如SVD、RPCA、FA等。对比实验表明，不同的统计变换方法相比不做变换的DF方法性能均有提升。相较而言，PCA因能同时实现标签正交化和降维，取得了最佳性能。

论文还测试了Time-o1在不同神经网络架构上的表现，包括FredFormer、iTransformer、FreTS、Dlinear等，证明了其与模型无关的特性：可以切实有效提升大多数主流时序预测模型的精度。

04
结论

时间序列预测中的损失函数设计存在两个关键挑战：其一，标签自相关导致损失函数有偏；其二，任务数量过多导致优化困难。为此，Time-o1创新性地提出了基于标签变换的损失函数。该方法首先将标签序列映射为按重要性排序的正交主成分，再将模型预测对准最重要的主成分，从而同时解决了两个上述挑战。

Time-o1不仅验证了优化损失函数能提升时序预测性能，还首次将特征工程的思想应用于标签端，为该领域的未来发展提供了新思路。

快来试试Time-o1，让正交损失成为你性能优化的“最后一棒”！

共同第一作者王浩现为浙江大学控制学院博士研究生，研究方向聚焦于可信学习、多任务学习技术及其在大模型中的应用，以第一作者发表ICML、NeurIPS、KDD等CCF-A类论文十余篇。2022年-2023 年，他曾在蚂蚁金服、微软亚洲研究院科研实习，从事推荐系统理论和实践研究。2025 年起，他在小红书参加RedStar实习项目，进行可信奖励模型、垂域智能体领域的研究工作。

共同第一作者潘黎铖现为浙江大学控制学院博士研究生，研究方向聚焦于可信学习技术及其在大语言模型中的应用。2024-2025年，他曾在蚂蚁金服、微软亚洲研究院科研实习，从事推荐系统和智能体理论和实践研究。2025 年起，他在小红书参与科研实习，进行可信奖励模型、智能体领域的研究工作。

通讯作者林宙辰博士现任北京大学智能学院、通用人工智能全国重点实验室教授。他的研究领域包括机器学习和数值优化。他已发表论文360余篇，谷歌学术引用超过42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG会士，多次担任CVPR、NeurIPS、ICML等会议的Senior Area Chair，现任ICML Board Member。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.