网易首页 > 网易号 > 正文 申请入驻

如何训练时间序列大模型(LTSM)?时序基座模型LTSM-bundle来了

0
分享至

大模型席卷了整个AI领域。不仅仅是自然语言(NLP)和计算机视觉(CV),很多其它AI子领域也正在经历「大模型化」的过程。在时间序列(Time Series)领域,时间序列大模型(Large Time Series Model,LTSM)正在兴起。LTSM有非常广泛的应用,毕竟大量的数据(比如电力、交通、天气)等等都是以时间序列形式存在的。

那么如何训练LTSM呢?我们最近的工作参照已有的文献做了大量的实验,希望能更好地理解哪些训练LTSM方法是最有效的。基于这些实验,我们总结出了一个训练LTSM的「最优组合」(当然了,这应该只是个局部最优,毕竟资源有限),称作LTSM-Bundle。LTSM-Bundle非常简单,效果不错。我们对实验代码也做了整理,感兴趣的读者可以自己动手试试看。

论文标题: Understanding Different Design Choices in Training Large Time Series Models 论文链接: https://arxiv.org/abs/2406.14045 代码链接: https://github.com/daochenzha/ltsm

一、什么是大模型?

大模型是最近在AI领域非常流行概念。大模型有两个基本要求:

  • 「大」训练大模型的关键在于「大」。「大」体现在多个方面,包括数据量大、数据多样性大、模型大、训练所需资源大等等。「大」力出奇迹已经成为共识。

  • 可迁移性:可迁移性是「大」所要达成的基本目标。在足够大的数据和模型支持下,我们希望模型能够很好地迁移,也就是说在各种各样的场景下都能表现得很好。当足够「大」时,我们甚至希望模型能涌现出一些智能,去解决一些更复杂的问题

总结一下,训练大模型是指我们用「大」的方式训练模型以实现很强的迁移性,并希望它能涌现出一些智能。

二、什么是大时序模型(LTSM)?

我们先来说说时间序列(Time Series)。时间序列无处不在,比如在不同时段电力的使用情况,在不同时段交通状况等等。它们的共同点在于,数据是以时间的先后顺序来存放的。时间序列分析(Time Series Analysis)相关的任务有很多,我们这里主要关注最为常见的一种,即时间序列预测(Time Series Forcasting)。这个任务的目标是,给定历史X个数据值,我们需要预测未来Y个数据值。其中X和Y根据具体任务会有所不同。

大时序模型(LTSM)的目标是基于已有的大量的时间序列数据去训练一个可迁移的模型,这个模型在没有见过的时间序列上也能做出比较好的预测(为简单起见,我们只考虑时间序列预测任务)。

三、训练LTSM难在哪里?

相比于NLP和CV,要想在Time Series上训练大模型其实是件更难的事情。这个难主要体现在数据本身的可迁移性上。举个例子来说明,假如我们有一个文档,里面包含一个词「猫」。如果我们把这个文档当作训练数据,那么这个模型通过这个文档可能会学到「猫」是某一种动物。实际训练中,我们可能还有大量其它文档也会包含「猫」,并且这些「猫」一般来说也是指同一种动物。因此,模型训练过程中会不断加强「猫」是一种动物的概念。使用模型时,当我们输入「猫」,模型也会自然知道「猫」是一种动物,这就是迁移。

为什么大模型在NLP上能够迁移呢?本质在于NLP中的词是可迁移的,也就是「猫」在不同的文档中都指的同一种的动物,在新的情景下,「猫」一般也是指这一种动物。当然了,NLP还有很多复杂的情况,比如一词多义会让迁移更难。不过总体来说,NLP中词的语义大体是可迁移的,这也是能大模型能有效的基础。同理,各种各样的「猫」图片(比如我的头像)通常都是指同一种动物。在海量的图片下,我们也能学出「猫」这个概念。

在Time Series上训练大模型的难点在于,Time Series没有很明显的可以迁移的语义。这种难以迁移体现在来自于不同领域甚至不同方式收集的Time Series会非常不一样。比如,对于电力使用数据Time Series A和传感器数据Time Series B,它们仅仅是一串有序列的数据,很难说从A到B或者从B到A有什么知识是可以迁移。即使是同一个领域下的数据,比如电力数据,它们也可能会非常不一样,因为它们可能是在不同时段、地区收集的,甚至采样的频率也可能不一样(比如一个是每分收集一次数据,一个是每小时收集一次数据)。

除此之外,Time Series的维度也会不一样。多维度时间序列(Multi-Variate Time Series)是时间序列中很常见的情况。比如工厂里,我们可能有X个传感器同时搜集数据,那么的Time Series就会是X维的。可是X的值在不同的工厂不太可能是一样的,那么如何能够互相迁移呢?以上列举的几点Time Series高度不一样的地方会从两个方面对训练LTSM带来挑战:

  • 如何在如此多样的Time Series上训练一个模型?大模型一般要求Once-for-All,也就是说要训练一个模型去拟合各种各样的Time Series的数据。在领域、频率、维度都可能都不同的Time Series数据上训练一个模型是很有挑战性的。

  • 如何能让模型更好地迁移到新场景?同理,应用大模型时,数据的领域、频率、维度也可能会不一样,这种迁移具有挑战性。

四、LTSM与LLM有什么联系?

既然大语言模型(LLM)已经非常成功,我们自然会想到去寻找LTSM与LLM的联系。如此,我们可以把训练LLM一些经验技巧迁移过来。

LTSM和LLM最大相似点在于,它们都是顺序数据。当然了,虽然都是顺序数据,但是它们数据输入的格式和特点完全不一样。对于LLM,我们(1)将句子中的单词通过分词编码为整数序列;(2)通过嵌入查找(embedding lookup)过程转换为数值向量,如下图:

NLP中的分词。来源:https://tiktokenizer.vercel.app

NLP中的嵌入查找。来源:https://projector.tensorflow.org/.

如果从这个角度看,LTSM也可以看成一个分词+embedding的过程。下图展示了将一个具有100个时间戳的时间序列转换为长度为5的序列的示例,其中序列中的每一步都由一个4维特征向量表示。时间序列可以通过滑动窗口进行分割,并执行离散化以提取统计值(例如,均值、标准差、最小值、最大值)来表示每个窗口。

Time Series “分词”示例

事实上,如果我们把LTSM输入和输出的Time Series想象成一段话,那么LTSM可以看成一个套了壳的LLM:

LTSM与LLM

五、LTSM训练策略有哪些?

从LTSM和LLM的联系切入,我们从文献中总结了一些常用的策略,并将它们按不同类别映射到对应的LLM训练策略中:

LTSM与LLM的训练策略

这样看是不是就更清晰了?我们简单介绍下每个类别和方法:

  • 分词(Data tokenization):与NLP中的分词类似,我们可以使用简单的线性层或预训练的分词器[1]将时间序列数据的片段映射成embedding。

  • 基础模型(Base Model):与NLP一样,我们可以选择各种各样的模型架构来学习。

  • 提示(Prompt):类似地,时间序列中的提示可以依赖于有关数据的文本信息(例如,数据集或任务描述),或者从每个时间序列中提取全局统计特征,以突出不同数据集之间的整体差异。

  • 训练范式(Training Paradigm):时间序列的训练范式也可以采用类似的方法,比如使用相同的模型架构从头开始训练而不使用预训练权重(From Scratch),在预训练权重上进行微调(fine-tuning),或者用更高效的方式来微调(例如LoRA)等等。

六、理解训练LTSM的各种选择

面对以上不同的训练策略,我们应该如何选?那种组合是最好的?我们最近的论文LTSM-bundle研究了不同选择在基准数据集上的性能,并开源了代码(链接都在最上方),方便大家能够在自己的时间序列数据上探索LTSM。

具体来说,我们比较了训练LTSM所涉及的各种方面,包括提示模型的不同方法、如何分解数据、训练方法、选择合适的基础模型、数据量以及数据集的多样性等等。同时,我们提出了一种称为「时间序列提示」的新提示方法。这种新方法通过从训练数据中提取关键特征,给出每个数据集的统计概览来创建提示。

我们根据预测误差(均方误差/绝对误差)来评估不同选择,数字越低,模型越好。一些主要的发现包括:

1. 时间序列提示在增强LTSM模型训练方面优于文本提示,使用统计提示的性能优于未使用提示的情况。

2. 使用可学习的线性层对时间序列进行分词在训练LTSM模型时效果更好,尤其是在处理来自不同领域的数据时,比其他分词方法更优。

3. 从头开始训练最初可以表现良好,但由于参数数量庞大,存在过拟合风险。微调通常可以实现最佳性能,并且收敛速度是从头开始训练的两倍。

4. 较小的模型在长期预测(336和720步)中表现出高达2%的更好性能,而中型模型在短期预测(96和192步)中表现优于大型模型,因为大型模型可能存在过拟合问题。

5. 增加数据量与改进模型性能不正相关,因为每个数据集的更多数据增加了时间序列训练的粒度,这可能降低模型的泛化能力。但增加数据集多样性通常会提高性能。

结合这些发现,我们提出一个LTSM模型(LTSM-Bundle),其性能优于所有现有的LTSM。

七、自己动手训练LTSM

我们的研究完全开源,有兴趣的读者可以根据README尝试:https://github.com/daochenzha/ltsm/blob/main/tutorial/README.md

大体有下面几步:

步骤1:创建一个虚拟环境。克隆并安装所需的软件包和仓库。

conda create -n ltsm python=3.8.0
conda activate ltsm
git clone git@github.com:daochenzha/ltsm.git
cd ltsm
pip3 install -e .
pip3 install -r requirements.txt

步骤2:准备数据集,确保本地数据文件夹按如下所示组织。

- ltsm/
    - datasets/
        DATA_1.csv/
        DATA_2.csv/
        DATA_3.csv/
    ...

步骤3:从训练、验证和测试数据集中生成时间序列提示。

python3 prompt_generate_split.py

步骤4:在./prompt_data_split文件夹中找到生成的时间序列提示。然后运行以下命令来完成提示

# normalizing the prompts 
python3 prompt_normalization_split.py --mode fit

 #export the prompts to the "./prompt_data_normalize_split" folder 
python3 prompt_normalization_split.py --mode transform 

最后一步:使用时间序列提示和线性分词在gpt2-medium上训练自己的LTSM。

python3 main_ltsm.py \
    --model LTSM \
    --model_name_or_path gpt2-medium \
    --train_epochs 500 \
    --batch_size 10 \
    --pred_len 96 \
    --data_path "DATA_1.csv DATA_2.csv" \
    --test_data_path_list "DATA_3.csv" \
    --prompt_data_path "prompt_bank/prompt_data_normalize_split" \
    --freeze 0 \
    --learning_rate 1e-3 \
    --downsample_rate 20 \
    --output_dir [Your_Output_Path] \
参考文献

[1] Ansari, Abdul Fatir, et al. “Chronos: Learning the language of time series.” arXiv preprint arXiv:2403.07815 (2024).


作者:查道琛 来源:【知乎】https://zhuanlan.zhihu.com/p/708804309

llustration From IconScout By Kawalan Studio

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真相终于大白!特朗普放弃攻击伊朗,竟是以色列害怕自己被揍?

真相终于大白!特朗普放弃攻击伊朗,竟是以色列害怕自己被揍?

君君文谈
2026-01-20 19:12:10
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

1950年,师级首长在成都遭活剥?毛主席拍案而起:116万土匪,一个不留!

寄史言志
2026-01-07 20:37:09
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
奥斯塔彭科终结六连败

奥斯塔彭科终结六连败

体坛周报
2026-01-20 16:11:10
男子卖车卖房给母亲治病,母亲死后儿媳洗床单,掀开床单儿子愣了

男子卖车卖房给母亲治病,母亲死后儿媳洗床单,掀开床单儿子愣了

温情邮局
2025-06-23 13:46:26
81岁老人被送养老院,悄悄清空700万股票账户,2个月后女儿傻眼了

81岁老人被送养老院,悄悄清空700万股票账户,2个月后女儿傻眼了

兰姐说故事
2025-06-17 10:00:07
河南网友排队给气象台“道歉”,“真准,错怪你了”!这场雪到底多猛?积雪消融或需一周

河南网友排队给气象台“道歉”,“真准,错怪你了”!这场雪到底多猛?积雪消融或需一周

环球网资讯
2026-01-20 14:15:11
一群内地小伙香港抽烟乱扔烟头,结果被警察抓住一人罚款三千

一群内地小伙香港抽烟乱扔烟头,结果被警察抓住一人罚款三千

映射生活的身影
2026-01-20 11:23:43
部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

浮生实录集
2025-09-18 15:10:05
公公偷情20年,婆婆却默许,直到拆迁时我才明白婆婆''装傻''多高明

公公偷情20年,婆婆却默许,直到拆迁时我才明白婆婆''装傻''多高明

温情邮局
2026-01-14 15:20:11
芯片巨头官宣巨额年终奖!人均64万元,创公司历史最高纪录,其股价去年涨幅达275%

芯片巨头官宣巨额年终奖!人均64万元,创公司历史最高纪录,其股价去年涨幅达275%

每日经济新闻
2026-01-20 10:54:20
郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

郑裕玲:分手时把吕方赶出豪宅,如今的她,印证了周润发的那句话

君笙的拂兮
2026-01-11 23:46:50
单场扔进8记三分球!三分命中率46%神射手,湖人是怎么失去你的?

单场扔进8记三分球!三分命中率46%神射手,湖人是怎么失去你的?

弄月公子
2026-01-20 13:30:11
鸿蒙智行回应“尊界S800起火”:非车辆原因

鸿蒙智行回应“尊界S800起火”:非车辆原因

观察者网
2026-01-20 12:32:04
腿粗屁股大的女生怎么穿?白色T恤搭配打底裤,打造完美的腰臀比

腿粗屁股大的女生怎么穿?白色T恤搭配打底裤,打造完美的腰臀比

小乔古装汉服
2025-12-22 22:24:08
方昊告别国安:感恩球队爱球迷,山水相逢暂别离

方昊告别国安:感恩球队爱球迷,山水相逢暂别离

懂球帝
2026-01-20 12:49:04
广东省内驻有19个厅局级公安机构,分为五类,以垂直管理体制为主

广东省内驻有19个厅局级公安机构,分为五类,以垂直管理体制为主

小圣杂谈原创
2026-01-20 11:44:45
拆除重建!上海陆家嘴第一栋高楼“港务大厦”爆破拆除,向东平移约200米!

拆除重建!上海陆家嘴第一栋高楼“港务大厦”爆破拆除,向东平移约200米!

建筑师杂志
2026-01-20 13:03:10
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
2026-01-20 21:00:50
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

12岁女孩被3名男子多次性侵 当地警方不予立案:自愿的

头条要闻

12岁女孩被3名男子多次性侵 当地警方不予立案:自愿的

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

旅游
艺术
手机
公开课
军事航空

旅游要闻

实探溧阳民宿:美丽乡村背后的底气

艺术要闻

莫奈:追寻冬日雪景中的静谧之光

手机要闻

iPhone Air2 再次被确认:无缘屏下 Face ID,秋季发布!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版