网易首页 > 网易号 > 正文 申请入驻

北大林宙辰团队:从最优传输角度训练时序预测模型 丨ICLR 2026

0
分享至


DistDF:从点对点误差转向联合分布对齐,重构时间序列预测的损失函数。

作者丨郑佳美

编辑丨岑 峰

在时间序列预测研究中,一个耐人寻味的现象长期存在:

一方面,模型结构不断演进,从循环网络到 Transformer,再到频域与混合结构;另一方面,几乎所有方法在训练阶段依赖同一类损失函数,即以均方误差(MSE)为代表的点对点误差。

这使得时间序列预测在方法论层面呈现出一种隐性的停滞,即研究重心持续向模型表达能力倾斜,而对损失函数所隐含的统计假设缺乏系统反思

点对点误差的核心假设在于,标签序列中的各时间步可被视为给定历史条件下相互独立的预测对象。然而,这一假设与时间序列数据的生成机制之间始终存在偏差。

真实世界中的时间序列由随机过程演化而来,不同时间点之间存在显著的相关关系。将多步预测问题拆解为一组独立的回归任务,不可避免地为损失函数引入了结构性偏差,使模型难以学习标签序列的整体形态、相关结构以及条件依赖关系

针对这一问题,北京大学林宙辰团队深入剖析了此类结构性偏差的成因。在此基础上,团队提出了 DistDF:一种通过联合分布对齐训练预测模型的损失函数。DistDF 的提出不仅为时间序列预测提供了一种新的损失函数设计思路,也在更一般的意义上,对序列建模中“应当优化什么”这一长期被忽视的问题给出了新的回答。


论文地址:https://arxiv.org/pdf/2510.24574v1

01


当独立性假设被实验证伪之后

当前时间序列预测领域的主流方法普遍采用逐时间点的均方误差(MSE)作为损失函数:

隐式地做了独立性假设:在给定历史序列的条件下,标签序列各时间点的观测相互独立。然而,真实时间序列存在显著的标签自相关:标签序列各时间点的观测往往存在显著的相关性。因此,的独立性假设与时间序列数据的生成机制相悖,导致其作为损失函数是有偏的(具体见定理1)。

[定理1]考虑单变量标签序列 ,其条件自相关矩阵为 ,则标签序列的实用负对数似然可表示为: 。显然,仅当是单位阵,即标签自相关不存在时,才有

研究团队通过实证分析验证了这一矛盾:在给定历史序列的条件下,标签序列仍呈现显著的条件相关结构,从而在实证意义上证伪了独立性假设。实验进一步表明,即使采用频域变换或主成分分解等标签变换方法,变换后的标签序列依然存在残余相关性;因此,在变换后的标签应用均方误差作为损失函数仍会导致结构性偏差。


02


DistDF:基于分布对齐的时间序列损失函数

为规避传统方法中的独立性假设,DistDF 提出直接对齐预测序列的条件分布与真实标签的条件分布 。直观上,该目标可通过最小化两个条件分布间的距离 来实现。

然而,直接将其作为损失函数面临严重的样本稀缺问题。对于给定的历史序列 ,时间序列数据集通常仅包含唯一的标签序列 ,模型也仅产生单一预测 。这种“单样本”情形导致直接估计条件分布距离 在统计上不可靠。

为解决这一难题,我们利用概率恒等式 。因为边缘分布 是共享的,若联合分布对齐,则条件分布必然对齐。基于此,我们将条件分布匹配问题转化为联合分布匹配问题。

进一步结合最优传输理论,本文证明了联合分布的 Wasserstein 距离构成了条件分布 Wasserstein 距离期望的上界:

因此,通过最小化历史-预测联合分布 与历史-标签联合分布 之间的 Wasserstein 距离,可有效实现条件分布对齐,进一步实现预测模型的无偏训练。同时,这一转换允许利用整个数据集的样本来估计联合分布距离,显著提升了分布距离估计的可靠性。

DistDF 的实现流程如下:

首先,构造联合序列: 和 ;

接着,计算两个联合序列之间的Wasserstein距离: ,

最后,与 MSE 损失加权融合:

DistDF 作为模型无关的损失函数,可适配各类预测模型架构。

03


在大量实验中,一致验证优势

论文首先将DistDF与现有损失函数进行了比较,包括通过标签变换削弱标签相关性的 FreDF 和 Time-o1。结果表明,这些方法虽然减少了似然估计的偏差并提升了性能,但残差偏差仍然存在,因此性能仍有改进空间。而DistDF通过最小化条件分布之间的距离,实现了预测模型的无偏训练,取得了最佳的预测性能。


其次,论文通过消融实验对两个关键因素进行了验证;分别考察在DF的基础上,仅对齐均值、仅对齐协方差以及同时对齐二者的情形。结果表明,两种因素单独对齐时均能带来性能提升,而二者同时对齐时效果最为显著。


接着,论文也对模型输出的预测序列进行了可视化分析。结果表明,采用 DistDF 训练的模型能够较好地跟随序列中的突发变化,使得预测序列在整体形态上更加接近真实数据。这进一步表明,DistDF 的作用不仅体现在降低数值误差上,更重要的是在训练过程中引导模型学习到了真实未来时间序列的整体分布形态。


最后,论文对DistDF与不同预测模型的兼容性进行了验证。结果表明,无论模型本身的复杂度和建模方式如何,引入 DistDF 训练策略后,模型预测性能几乎都能够获得进一步提升。这一结果表明,DistDF 的作用并非弥补模型结构本身的不足,而是提供了更好的训练信号。


04


「多任务学习」需要分布对齐

整体来看,这项研究重新审视了多任务学习场景中的损失函数设计。研究团队强调:多任务学习的核心目标不应局限于对 T个标签的逐点建模,而应转向对一个在任务维度上具有内在相关结构的随机过程进行整体建模。

在这一视角下,传统损失函数(如MSE)隐含了“给定输入条件下各任务标签相互独立”的假设,从而将一个高维、相关的随机过程建模任务退化为一组彼此独立的标量回归任务。因该假设忽略标签序列的内生结构,这些损失函数往往是有偏的

DistDF 通过将预测序列与真标签建模为概率分布,实现对任务维度上相关结构的整体建模。通过优化基于分布对齐的损失函数,模型能够显式学习标签序列的整体形态、相关结构以及条件依赖关系

进一步看,该研究揭示的问题具有广泛的普适性。只要学习任务的输出构成具有显著相关性的序列(如语音、图像、文本或用户行为),若仍沿用基于独立性假设的损失函数(如 MSE),则必然会引入结构性偏差。因此,DistDF 所倡导的联合分布对齐思想,不仅适用于时间序列预测,也同样适用于语音合成、轨迹预测等任务。它并非针对时间序列任务的特定技巧,而是为多任务学习问题提供了一种更为通用的损失函数构造范式。

05


作者信息

论文第一作者王浩,现为浙江大学控制学院博士研究生,研究方向聚焦于因果推断、多任务学习技术及其在大语言模型中的应用。2022 年- 2023 年,他曾在蚂蚁金服、微软亚洲研究院科研实习,从事推荐系统理论研究。2025 年起,他在小红书参加 RedStar 实习项目,进行大语言模型、可信奖励模型领域的研究工作。


论文通讯作者林宙辰,现任北京大学智能学院、通用人工智能全国重点实验室教授。他的研究领域包括机器学习和数值优化。他已发表论文360余篇,谷歌学术引用超过42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG会士,多次担任CVPR、NeurIPS、ICML等会议的Senior Area Chair,现任ICML Board Member。


参考链接:https://zhouchenlin.github.io/

本工作得到了北京市科学技术委员会、中关村科技园区管理委员会的大力支持,在此深表感谢

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒:巴基斯坦防长称“耐心已经耗尽”,巴方对阿富汗政府“公开宣战”

外媒:巴基斯坦防长称“耐心已经耗尽”,巴方对阿富汗政府“公开宣战”

环球网资讯
2026-02-27 09:29:11
头对头击败司美格鲁肽!《柳叶刀》重磅:3期临床证实,新型口服药降糖、减重效果优于司美

头对头击败司美格鲁肽!《柳叶刀》重磅:3期临床证实,新型口服药降糖、减重效果优于司美

医诺维
2026-02-27 17:08:46
巴基斯坦正式宣战!两小时内遭强攻,致命导火索,中方早就提醒过

巴基斯坦正式宣战!两小时内遭强攻,致命导火索,中方早就提醒过

凡知
2026-02-28 00:49:06
王天辰:住北京部队大院,身高185帅气迷人,出道10年终于火了

王天辰:住北京部队大院,身高185帅气迷人,出道10年终于火了

陈意小可爱
2026-02-27 11:10:14
《镖人》下跌严重,20亿票房梦碎,预计亏损超2亿

《镖人》下跌严重,20亿票房梦碎,预计亏损超2亿

影视高原说
2026-02-26 18:45:47
攻不了,也守不住?中国空军在西藏上空,被印度空军足足欺负40年

攻不了,也守不住?中国空军在西藏上空,被印度空军足足欺负40年

来科点谱
2026-02-22 07:15:34
海南琼海博鳌一道路还未投入使用即坍塌,省交通厅:正在修复,核查后将严肃追责

海南琼海博鳌一道路还未投入使用即坍塌,省交通厅:正在修复,核查后将严肃追责

潇湘晨报
2026-02-26 13:15:11
世界第一女巨人来自中国安徽,穿78码的鞋子,一顿饭吃六碗炒面

世界第一女巨人来自中国安徽,穿78码的鞋子,一顿饭吃六碗炒面

流史岁月
2026-02-25 14:05:05
猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

健康摆渡人
2026-02-26 23:00:05
坏消息,独行侠队库珀·弗拉格再次缺席对阵灰熊队的比赛

坏消息,独行侠队库珀·弗拉格再次缺席对阵灰熊队的比赛

好火子
2026-02-28 04:23:11
最新 | 嫣然医院法院公告已撤下!

最新 | 嫣然医院法院公告已撤下!

天津广播
2026-02-27 22:47:33
山东高铁全面爆发!2026年预计双线通车,鲁西鲁北告别绕行时代

山东高铁全面爆发!2026年预计双线通车,鲁西鲁北告别绕行时代

瓜哥的动物日记
2026-02-27 16:21:14
喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制!

喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制!

奇思妙想生活家
2026-02-28 03:49:42
春节假期结束一天,鹿哈官宣得女,感谢了鹿晗,曾7个月赚3500万

春节假期结束一天,鹿哈官宣得女,感谢了鹿晗,曾7个月赚3500万

叨唠
2026-02-25 16:37:17
“看完这幅画,我清空了购物车!”川美学生毕业作《祷》霸榜热搜

“看完这幅画,我清空了购物车!”川美学生毕业作《祷》霸榜热搜

有书
2026-02-26 17:26:56
蒙古国的人,为啥如此仇视中国人?

蒙古国的人,为啥如此仇视中国人?

贱议你读史
2026-02-27 15:12:56
瞿颖没想到,30年被自己拒绝3次的胡兵,如今却给她这么大的回报

瞿颖没想到,30年被自己拒绝3次的胡兵,如今却给她这么大的回报

情感大头说说
2026-02-28 02:25:31
痛心!广东1岁男童家门口失踪,两天后鱼塘捞出遗体,死因曝光

痛心!广东1岁男童家门口失踪,两天后鱼塘捞出遗体,死因曝光

笔墨V
2026-02-28 00:19:25
俄反对派媒体公布俄军阵亡惊人数据

俄反对派媒体公布俄军阵亡惊人数据

小眼睛小世界
2026-02-27 09:20:27
外卖时代被颠覆?一个全新行业正在悄悄取代外卖,你准备好了吗?

外卖时代被颠覆?一个全新行业正在悄悄取代外卖,你准备好了吗?

老特有话说
2026-02-27 21:44:31
2026-02-28 05:23:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7095文章数 20732关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普警告伊朗:“有时候不得不打”

头条要闻

特朗普警告伊朗:“有时候不得不打”

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

亲子
家居
时尚
艺术
公开课

亲子要闻

惊呆了!12岁小女孩抱弟弟如同妈妈般自然,背后真相感人至深!

家居要闻

素色肌理 品意式格调

舒淇最爱穿的裙子搭配,真的很适合春天!

艺术要闻

紫气东来,好运一整年!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版