网易首页 > 网易号 > 正文 申请入驻

1.6B token,1290条均衡序列:蚂蚁开源QuitoBench,辅助AI精确洞察未来

0
分享至

你可能没有意识到,但时间序列预测早已渗透到日常生活的方方面面。

打开手机看天气预报,背后是气象序列的预测;双十一零点抢购不卡顿,靠的是提前预测流量峰值来做服务器扩容;基金 App 里的收益走势图,背后也离不开金融时间序列的建模。简单来说,时间序列预测就是让机器根据过去的数据,判断接下来会发生什么。从能源调度到风险预警,几乎所有需要"提前做准备"的场景都离不开它,是 AI 落地最广、最刚需的能力之一。

近些年,时序预测的模型从 MLP 和 Transformer 两大架构的龙争虎斗,到 Chronos、TimesFM、TiRex 等时序大模型的异军突起,各类深度学习模型架构与基模不断涌现。

模型越来越多,但一个尴尬的问题也随之浮出水面:我们到底该怎么判断,哪个模型真的更强?

做过时序预测的人大概都有过类似的经历。你在 ETT、Weather、Traffic 这些经典数据集上跑出了不错的数字,信心满满地准备上线。结果一换到自己的业务数据,指标大幅跳水。你以为是代码的问题,排查一圈之后发现——代码没问题,问题出在评测本身。

这不是个例,而是整个时序预测领域长期面对的一个系统性困境。

考卷出了问题,分数还能信吗?

如果把模型评测比作考试,那现在时间序列领域的这张"考卷",至少有四个不及格的地方。

第一,没有统一的考卷。NLP 有 GLUE,视觉有 ImageNet,但时间序列预测至今没有一个被广泛认可的标准评测基准。研究者各自拼凑一组数据集跑实验,结果难以横向比较。

第二,考卷严重偏科。现有 benchmark 的数据分布高度集中。论文分析了两个当前主流的大规模 benchmark:GIFT-Eval 有 50.7% 的序列落在同一类 regime 里,Timer 更甚,达到 65.8%。这意味着什么?模型只要在这一类"主流题型"上表现好,总分就不会差——但这不代表它真正全面。就像一张数学试卷 70% 都是计算题,你很难从总分看出谁的几何更好。

第三,考生可能提前看过答案。当前很多时序 foundation model 的预训练语料规模庞大,而公开 benchmark 被反复复用多年。测试集是否已经被模型在预训练阶段间接"见过"?这种数据泄漏风险,正在悄悄侵蚀评测的可信度。

第四,题目太简单,区分不出真实水平。很多经典数据集的序列长度偏短,GIFT-Eval 中 50% 的序列不到 200 个时间步。这对于今天动辄要做 long-context forecasting 的模型来说,根本评不出真正的能力上限。

这些问题叠加在一起,造成了一个后果:排行榜上的名次,未必反映模型的真实能力。论文刷出来的 SOTA,换个场景可能就不 work 了。

现在,蚂蚁集团正式开源 Quito 与 QuitoBench,尝试重新出一张更公平的考卷。


项目地址:
● Website:https://hq-bench.github.io/quito/[1]
● Hugging Face:https://huggingface.co/datasets/hq-bench/quitobench[2]

16 亿 token 的工业级语料,不只是"更大"

这次开源包含两个核心部分。

第一个是Quito,一个来自真实生产环境的大规模时间序列语料库。数据来源于 Alipay 平台的应用流量,覆盖金融、电商、广告、基础设施、风控、IoT 等 9 个业务垂类——不是实验室里仿造的数据,而是每天真正在跑的生产系统。

规模上,Quito 包含两个子集:Quito-Min(22,522 条序列,10 分钟粒度,约 7 亿 token)和 Quito-Hour(12,544 条序列,1 小时粒度,约 10 亿 token),总规模达到1.6B tokens。序列统一较长,最短也有 5,904 个时间步,足以支撑 context length 从 96 到 1024 的全范围评测。


更关键的是数据来源的"干净"。Quito 来自单一专有工业环境,与任何公开预训练语料零重叠。这从根源上杜绝了数据泄漏的可能——无论模型的预训练语料有多大,都不可能在训练阶段"见过"这些测试数据。

不按行业分,按"难不难预测"分

第二个核心部分是QuitoBench,从 Quito 中进一步构建的评测基准。它最大的创新不在于规模,而在于组织方式。

传统 benchmark 按应用领域分组:交通、电力、天气。但领域标签其实是个很粗糙的分类方式。同样是交通数据,有的序列周期性极强,几乎可以"闭眼预测";有的则充满突发脉冲和噪声,任何模型都会挣扎。把它们扔进同一个"交通"桶里评测,掩盖的信息远比暴露的多。

QuitoBench 换了一个思路:按时间序列本身的统计特征来分类。具体来说,每条序列沿三个维度打标签——趋势强度(Trend)、季节性强度(Seasonality)、可预测性(Forecastability)。三个维度各分高低,组合出 2³ = 8 类 TSF Regime。


然后在这 8 个格子里做近乎均衡的采样,最终得到 1,290 条测试序列,每类占比 10.5%–13.2%。对比 GIFT-Eval 和 Timer 动辄 50%–65% 集中在单一 regime 的情况,QuitoBench 的均衡程度是质的飞跃。


这种设计的好处很直观:模型不能再靠"刷主流题型"上分了。aggregate metric 反映的是真实的全场景能力,而不是对某一类数据的过拟合。同时,研究者可以按 regime 做细粒度诊断——你的模型到底是在哪类序列上翻车的,一目了然。

232,200 个评测实例,10 个模型,四个意外发现

作者在 QuitoBench 上评测了 10 个代表性模型,横跨深度学习(CrossFormer、DLinear、iTransformer、PatchTST、TSMixer)、foundation model(Chronos-2、TimesFM-2.5、TiRex)和统计基线(Exponential Smoothing、Seasonal Naive)三大类。

实验覆盖 3 种 context length × 3 种 forecast horizon × 2 种预测模式 = 18 种任务配置,在 1,290 条序列上共产生232,200 个评测实例。每个模型需要生成约 1600 万次预测——这个评测密度,在时序领域相当罕见。


结果揭示了几个颇具实践意义的发现。

发现一:Context length 是模型选型的分水岭。当历史窗口较短(L=96)时,深度学习模型全面领先;但当窗口拉长到 L≥576,foundation model 开始反超,到 L=1024 时优势进一步扩大。这说明,模型选型不能只看"谁的指标最好",还要看你的业务场景能提供多长的历史数据。历史短,用小模型;历史长,foundation model 的预训练知识才能真正发挥出来。

发现二:可预测性,才是决定难度的关键。在 Trend、Seasonality、Forecastability 三个维度中,Forecastability 对预测误差的影响最大。高可预测性序列的平均 MAE 为 0.278,低可预测性序列为 0.505,差距 1.81 倍。最容易和最困难的 regime 之间,误差差距更是达到 3.64 倍。这也从数据层面验证了 QuitoBench"按统计特征分类"的设计逻辑——行业标签做不到的事,TSF Regime 做到了。

发现三:1M 参数的小模型,打赢了 200M 的大模型。总榜第一名是 CrossFormer,参数量约 1M。而它击败的对手包括 Chronos-2(~100M)和 TimesFM-2.5(~200M)。平均而言,深度学习模型在参数量少 59 倍的前提下,达到了接近甚至更好的效果。对于资源受限、推理成本敏感的工程场景,这是一个非常实际的结论:大不一定好,小而专可能更强。

发现四:加数据比加参数更有效。作者做了 scaling 实验,分别沿"训练数据量"和"模型参数量"两条轴扩展。结论很明确:无论深度学习还是 foundation model,增加训练数据带来的收益都显著大于增加模型参数。CrossFormer 的训练数据从 10K 扩展到 100M token,MAE 下降了 66%;而参数量扩展到 1M 以上后,收益就开始趋于平台期。对时序领域来说,这意味着:与其追求更大的模型,不如先把数据做好。

时间序列预测这个方向,模型论文一篇接一篇,但评测基础设施的建设远远没跟上。ETT、Weather 这些数据集在发布多年后仍是标配,不是因为它们足够好,而是因为没有更好的替代品。

QuitoBench 的价值不是"又多了一个数据集",而是提出了一种新的 benchmark 设计范式:大规模、长序列、分布均衡、无泄漏、工业真实场景——用时间序列的内在属性来组织评测,而不是用行业标签。这让我们终于有了一套足够严肃的工具,来回答"这个模型到底行不行"这个最基本的问题。


  1. https://hq-bench.github.io/quito/
  2. https://huggingface.co/datasets/hq-bench/quitobench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
91年,我咒初中男同学将来娶个母老虎,不料十年后,我们成了夫妻

91年,我咒初中男同学将来娶个母老虎,不料十年后,我们成了夫妻

农村情感故事
2026-03-18 07:24:59
全线大涨!刚刚,伊朗重磅发声!

全线大涨!刚刚,伊朗重磅发声!

新浪财经
2026-04-06 20:39:04
伊朗威胁炸毁以色列和美军基地油气设施,中东能源命脉面临重击

伊朗威胁炸毁以色列和美军基地油气设施,中东能源命脉面临重击

桂系007
2026-04-07 21:05:33
德科拍板!巴萨两大球员今夏必走套现,拉什福德买断彻底没戏

德科拍板!巴萨两大球员今夏必走套现,拉什福德买断彻底没戏

夜白侃球
2026-04-07 11:10:14
专家警告:每天吃一根香蕉,或等于给血脂“上锁”?真相来了

专家警告:每天吃一根香蕉,或等于给血脂“上锁”?真相来了

观星赏月
2026-04-07 16:56:34
伊朗首都响起密集爆炸声

伊朗首都响起密集爆炸声

环球网资讯
2026-04-07 16:50:52
越南政坛大洗牌!第16届国会开幕,13位重量级人物“意外”落选

越南政坛大洗牌!第16届国会开幕,13位重量级人物“意外”落选

缅甸中文网
2026-04-06 13:13:38
国足又迎喜讯!24岁华裔悍将愿意归化,但提了一个条件,不算过分

国足又迎喜讯!24岁华裔悍将愿意归化,但提了一个条件,不算过分

零度眼看球
2026-04-07 06:48:41
10个“不行”的男人有8个会去p?原因竟是……

10个“不行”的男人有8个会去p?原因竟是……

性学研究僧
2026-04-07 19:45:45
医生提醒:只要血压没超过这个值,不必过度吃药,千万别害了自己

医生提醒:只要血压没超过这个值,不必过度吃药,千万别害了自己

垚垚分享健康
2026-04-06 16:55:07
假如在澳门赌场赢了600万,突然收手准备走人,会有什么下场吗?

假如在澳门赌场赢了600万,突然收手准备走人,会有什么下场吗?

壹知眠羊
2026-04-07 07:23:38
张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

极目新闻
2026-04-07 15:59:36
41岁男足传奇名宿:定居广东,已是大老板,央视编导妻子气质出众

41岁男足传奇名宿:定居广东,已是大老板,央视编导妻子气质出众

揽星河的笔记
2026-04-07 15:30:34
张本智和这段采访的含金量还在上升,他评价松岛和王楚钦很到位

张本智和这段采访的含金量还在上升,他评价松岛和王楚钦很到位

李汪手工制作
2026-04-07 08:58:14
复活节的沉默:英国王室信仰天平的倾斜与文明退却

复活节的沉默:英国王室信仰天平的倾斜与文明退却

斌闻天下
2026-04-07 07:30:03
冠心病去世的人越来越多?医生强调:宁可打打牌,建议别做这6事

冠心病去世的人越来越多?医生强调:宁可打打牌,建议别做这6事

医学原创故事会
2026-04-07 00:18:03
本赛季至今,约基奇一共拿到33次三双,东契奇8次,那威少呢?

本赛季至今,约基奇一共拿到33次三双,东契奇8次,那威少呢?

兵哥篮球故事
2026-04-07 15:29:49
林彪叛逃后,周恩来嚎啕大哭,纪登奎上前劝说,他却摆手:你不懂

林彪叛逃后,周恩来嚎啕大哭,纪登奎上前劝说,他却摆手:你不懂

历史甄有趣
2026-04-06 09:15:20
评陈光标悼念陈丽华被指“哭错坟”,陈丽华是满族正黄旗

评陈光标悼念陈丽华被指“哭错坟”,陈丽华是满族正黄旗

大中国
2026-04-07 19:38:58
缅甸变天!敏昂莱上位总统,对中国意味着什么?

缅甸变天!敏昂莱上位总统,对中国意味着什么?

古事寻踪记
2026-04-07 07:16:38
2026-04-07 21:48:49
开源中国 incentive-icons
开源中国
每天为开发者推送最新技术资讯
7669文章数 34523关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

台湾一些人被指准备"润" 赖清德曾称儿子在美"学功夫"

头条要闻

台湾一些人被指准备"润" 赖清德曾称儿子在美"学功夫"

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

数码
游戏
亲子
公开课
军事航空

数码要闻

1999元就能买Mini LED电视 海信Vidda小钢炮S Mini开售

模组救场还是官方重做?GTA4重制版引发玩家激烈争论

亲子要闻

科普|科学备孕,需要做好哪些孕前检查?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版