网易首页 > 网易号 > 正文 申请入驻

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

0
分享至

新智元报道

编辑:LRST 好困

【新智元导读】Time-MoE采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。

在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。

近日,由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科研团队携手通力合作,创新性地提出了一种基于混合专家架构(Mixture of Experts, MoE)的时间序列基础模型Time-MoE,首次将时间序列预训练大模型的参数规模推向十亿级别,在时序预测领域实现了里程碑式的突破。

论文链接:https://arxiv.org/pdf/2409.16040

代码链接:https://github.com/Time-MoE/Time-MoE

与此同时,团队精心整理了预训练数据集Time-300B,这是目前时序领域最大的公开数据集,为各类时序任务提供了前所未有的通用解决方案。这是首次在时序领域中采用如此大规模的预训练模型,标志着时序预测技术迈入了一个全新的时代。

Time-MoE模型通过MoE架构的独特优势,将模型参数成功扩展至24亿,不仅显著提升了预测精度,还在降低计算成本的同时超越了众多现有模型,全面达到了SOTA(State of the Art)水平。

关键技术突破

1. 强大的混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。

2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。

3. 全球最大规模的开源时序数据集:团队开发了Time-300B数据集,涵盖9个领域的超过3000亿个时间点,为模型提供了丰富的多领域训练数据,确保其在多种任务中的卓越泛化能力。

在相同激活参数条件下,Time-MoE显著超越了现有的时序基础模型。在相同的FLOPs下,其稀疏架构展现出相较于密集模型的卓越精度优势。

模型框架

输入Token Embedding

Time-MoE使用逐点分词方法以确保时间序列信息的完整性,提高了模型处理不同长度序列的灵活性与适用性,如模型框架图中①所示。在②中,SwiGLU激活函数对每个时间序列点进行嵌入,其中包括一个Feed-forward network (FFN) 和一个Swish FFN,从而增强模型对多维输入的处理能力:

MoE Transformer模块

Time-MoE基于decoder-only Transformer,并结合了大规模语言模型中的最新技术。Transformer模块里, RMSNorm对每个子层输入进行了归一化处理,从而提升了训练的稳定性。

同时,采用旋转位置编码代替绝对位置编码,使得模型在处理可变序列长度时具备更好的外推能力。此外,模型引入了稀疏激活的混合专家层来取代标准Transformer模块里的FFN。

公式化概括如下:

其中Mixture代表混合专家层。如模型框架图中③所示,单个时间序列数据点可以被分配给一个或多个专家。通过选择部分专家网络来处理特定时间点的输入,模型的计算效率得到了提高。

多分辨率预测

如模型框架图中④和⑤所示,Time-MoE设计了一种多分辨率预测头,可以同时进行不同尺度的预测,突破了单一尺度预测的局限。

在训练时,不同分辨率头会被联合优化。在与推理时,模型采用贪心算法,利用不同尺度的输出组合成任意的预测长度。这种设计允许模型根据不同的预测范围进行灵活预测,并在训练过程中综合多个预测尺度的误差来优化模型的泛化能力,从而显著提升预测的准确性和鲁棒性。

实验效果

1. 零样本zero-shot预测

零样本预测能有效检验时序基础模型的泛化能力和通用性。实验表明,与现有的时序基础模型相比,Time-MoE达到了最好的预测效果,均方误差(MSE)降低了约20%

2. 全样本full-shot预测

在全样本预测中,预训练的Time-MoE会使用相应数据的训练集进行微调。实验表明,与专门为全样本预测设计的时序模型相比,Time-MoE依然能达到最优的效果, MSE降低了约24%。这体现了模型对于不同领域数据的适用性,以及预训练基础模型对于下游任务帮助的有效性。

3. 消融实验

文中进一步提供了一系列消融实验来验证模型框架设计的合理性。实验表明,Time-MoE的设计在提升模型精度上是有效的。特别地,在不使用混合专家的情况下,模型的MSE会有明显的退化。

4. Scalability分析

作者对于模型的规模化效果进行了详细分析,如下图所示。左图的实验表明,与稠密模型相比,稀疏模型减少了平均78%的训练成本和39%的推理成本。

右图的结果表明,随着数据量和模型参数的增大,Time-MoE持续表现出稳定的性能提升,并且与同规模的稠密模型相比,总能达到更小的MSE和更好的预测性能。

此外,作者还分析了训练精度的影响。如下表所示,与使用float32精度进行训练相比,使用bfloat16精度能得到相似的预测性能,但是bfloat16模型能在训练速度上获得12%的提升,内存占用上有 20%的减少。

此外,bfloat16还可以与flash-attention(表中简称为FA)无缝结合,从而进一步在训练和推理速度上带来23%和19%的提升。

总结

Time-MoE的成功标志着时序预测领域迈入了一个全新时代。它不仅在性能上全面超越了现有模型,更为构建大规模、高效、通用的时序预测基础模型奠定了一个可行的范式。Time-MoE的发布不仅为学术界开辟了全新的研究方向,也为工业界的多种时序应用场景注入了巨大的潜力。在能源管理、金融预测、电商销量、气象预报等众多关键领域,Time-MoE将成为企业和研究机构的强大工具。

团队成员相关论文:

[1] Foundation Models for Time Series Analysis: A Tutorial and Survey, KDD 2024.

https://arxiv.org/abs/2403.14735

[2] Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook, arXiv 2023

https://arxiv.org/abs/2310.10196

[3] Position: What Can Large Language Models Tell Us about Time Series Analysis, ICML 2024.

https://arxiv.org/abs/2402.02713

[4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models, ICLR 2024.

https://arxiv.org/abs/2310.01728

[5] TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting, ICLR 2024.

https://arxiv.org/abs/2405.14616

[6] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting, ICLR 2024.

https://arxiv.org/abs/2310.06625

[7] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, arXiv 2024

https://arxiv.org/abs/2410.16032

[8] Towards Neural Scaling Laws for Time Series Foundation Models, arXiv 2024 https://www.arxiv.org/pdf/2410.12360

[9] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis, NeurIPS 2024.

https://arxiv.org/abs/2406.08627

[10] Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting, NeurIPS 2024.

https://arxiv.org/abs/2405.14252

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
探访性爱机器人公司Somnia Lab:卧室里的性与AI

探访性爱机器人公司Somnia Lab:卧室里的性与AI

呼呼历史论
2026-07-03 06:32:57
起猛了!岳云鹏再次登上苹果官网,网友炸了

起猛了!岳云鹏再次登上苹果官网,网友炸了

新浪财经
2026-07-04 08:43:13
搬起石头砸自己的脚!名媛不帮郭富城夫妻P图被骂,生图又肿又僵

搬起石头砸自己的脚!名媛不帮郭富城夫妻P图被骂,生图又肿又僵

素玉姑娘
2026-07-04 10:07:27
火箭4换1交易:送芬尼-史密斯+3次轮去黄蜂 获1300万交易特例

火箭4换1交易:送芬尼-史密斯+3次轮去黄蜂 获1300万交易特例

醉卧浮生
2026-07-04 00:46:03
快顶不住了!乌方低头和谈,普京抛出四道铁闸:不认输,就等死!

快顶不住了!乌方低头和谈,普京抛出四道铁闸:不认输,就等死!

墨印斋
2026-07-03 11:40:46
台学者爆料:大陆可能已在筹备“台湾特区”,统一进程比你想的快

台学者爆料:大陆可能已在筹备“台湾特区”,统一进程比你想的快

故事终将光明磊落
2026-07-03 10:56:28
伊朗官员:出于安全考虑,新任最高领袖穆杰塔巴不会出席哈梅内伊告别仪式

伊朗官员:出于安全考虑,新任最高领袖穆杰塔巴不会出席哈梅内伊告别仪式

极目新闻
2026-07-03 16:59:04
销量猛增23%却遭“五连告”:小米的至暗时刻,亦是转型的成人礼

销量猛增23%却遭“五连告”:小米的至暗时刻,亦是转型的成人礼

家电派
2026-07-03 18:04:11
5天一到,解放军准时封海,特朗普没想到,中方从未给31国留面子

5天一到,解放军准时封海,特朗普没想到,中方从未给31国留面子

面包夹知识
2026-07-03 17:07:24
神舟二十三号香港女航天员:失重环境隐患重重,如何保障隐私?

神舟二十三号香港女航天员:失重环境隐患重重,如何保障隐私?

粤语音乐喷泉
2026-07-03 19:13:31
特斯拉新品突然发布,但这价格太夸张了吧!

特斯拉新品突然发布,但这价格太夸张了吧!

XCiOS俱乐部
2026-07-04 14:08:55
45岁踢世界杯?C罗亲口曝退役时间表,1句话留足悬念

45岁踢世界杯?C罗亲口曝退役时间表,1句话留足悬念

慢享生活集
2026-07-04 00:24:26
“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

一丝不苟的法律人
2026-06-27 14:59:29
一中国女球迷在电梯间偶遇C罗,被单独拉到消防通道合影

一中国女球迷在电梯间偶遇C罗,被单独拉到消防通道合影

懂球帝
2026-07-03 18:39:21
超强台风“巴威”来势汹汹!浙江:立足正面登陆、贯穿全省的最不利局面,坚决打赢今年台风防御首仗、硬仗

超强台风“巴威”来势汹汹!浙江:立足正面登陆、贯穿全省的最不利局面,坚决打赢今年台风防御首仗、硬仗

台州交通广播
2026-07-04 13:04:58
笑死!日本46岁女子遇印度男子爱情杀猪盘,得到永居权后却被分手

笑死!日本46岁女子遇印度男子爱情杀猪盘,得到永居权后却被分手

小徐讲八卦
2026-07-02 06:01:52
泽连斯基在基辅遭袭现场:我们在独自作战,受害者全都是乌克兰人

泽连斯基在基辅遭袭现场:我们在独自作战,受害者全都是乌克兰人

魅力乌克兰
2026-07-04 14:59:14
微信又更新!终于能分开工作微信和生活微信了

微信又更新!终于能分开工作微信和生活微信了

侃故事的阿庆
2026-07-03 12:25:23
太狡猾了!日本放任日元疯狂贬值,实际上是在给中国做的一个局?

太狡猾了!日本放任日元疯狂贬值,实际上是在给中国做的一个局?

芳芳历史烩
2026-07-04 11:19:22
日本队输给巴西队后,日本球迷不再打扫垃圾,被美国网红嘲笑了!

日本队输给巴西队后,日本球迷不再打扫垃圾,被美国网红嘲笑了!

总在茶余后
2026-07-04 00:51:08
2026-07-04 15:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15603文章数 66945关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

美大使装无辜:好失望 你们在中国肯定不自由

头条要闻

美大使装无辜:好失望 你们在中国肯定不自由

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
艺术
健康
教育
公开课

《GTA6》PS联动仅一周下架!停盘争议连累宣发?

艺术要闻

16位当代画家,23幅风景与人物作品

听说少吃点能抗衰老?专家讲解!

教育要闻

刚刚,南京市中考分段表出炉,600分以上19942人!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版