网易首页 > 网易号 > 正文 申请入驻

Nous新法TST:GPU耗时降61.3%,训练提速2.5倍

0
分享至

模型能力还需往上走,但训练成本却不能再无止境堆砌了——这可能是当前 AI 行业最强烈的共识。

从开发者到模型公司,大家关心的焦点已经不只是“谁家的模型更强”,而是一个更务实的问题:“同样多的 GPU、同样的训练时间,能不能跑出更多有效实验,吃进更多有效数据,拿到更好的 loss 和下游指标?”

凭借 Hermes Agent (140K Star)火速出圈的Nous Research 团队,刚刚提出了一种 Token 叠加训练方法:Token Superposition Training (TST),有望把大模型的预训练成本压低一个量级。





换言之,TST 只用了约四成 GPU 时间,就跑出了更低的 loss 和更好的下游指标。相当于在相同最终损失下将预训练时间压缩到原来的 40%,提速约 2.5 倍。

如果说,超越龙虾(OpenClaw)、登顶全球 OpenRouter 的 Hermes Agent,证明了 Nous Research 团队既会训模型,也能用 Agent 把能力调教到极致;那么最新提出的 TST,则是把视线从“模型怎么用”,进一步拉回了能力的源头,直击预训练本身。

之所以将 Nous Research 与 DeepSeek 对标,不只是因为这支美国团队同样长期坚守开源阵营,更因二者的降本路线截然不同。

DS 代表的是系统级重构,无论是 MoE、MLA,还是稀疏化与并行优化,皆靠系统级工程压榨算力。效率提升从来不是免费的,工程总要在别处为复杂度买单。

而 NR 则是重写预训练早期的学习路径。它不碰架构,从模型学习 token 的方式本身下手,切口更轻巧,更容易落地。

1 TST:让模型先“粗读”,再“精读”

要理解 TST,让我们先回到预训练最基础的动作:next-token prediction(下一个词元的预测)。

标准训练里,模型看到前面的 token,预测下一个 token。这个机制很简单,也很强。过去几年,几乎所有主流 LLM 都是在这个范式上堆出来的。

但 TST 提出了一个很朴素的问题:模型在预训练一开始,真的有必要逐 token 精读吗?

NR 的答案是:不一定。他们把预训练拆成两个阶段。



图注:TST 与标准 next-token prediction、MTP、SuperBPE 的对比。TST 在训练早期同时改变输入粒度和输出监督目标,但不改变最终模型架构

输入侧,模型会把这一组 token 的 embedding (“向量表示”)求平均,变成一个压缩后的superposed token(“叠加词元”)。输出侧,模型也不再预测下一个单独 token,而是预测下一组 token 里会出现哪些 token。

第二阶段叫recovery phase(“恢复阶段”)。训练跑到一定比例后,TST 被移除,模型重新回到标准 next-token prediction。也就是说,后半程还是按照普通 LLM 的方式训练,把前期“粗粒度学习”得到的表示,拉回到可生成、可部署的自回归模型形态。

这也是它和很多训练提效方案不一样的地方:TST 只改变训练过程,不改变推理模型。

目前很多方法一旦触及训练端优化,就会牵动推理。比如换 tokenizer,生态兼容要重来;改模型结构,部署链路要适配;改注意力或推理机制,线上服务也要跟着调整。

但 TST 是把复杂度留在训练阶段,最终交付的仍然是一个普通 LLM。

这也解释了为什么 TST 更适合被理解为一种“阶段化训练策略”,而不是 next-token prediction 的替代品。

更直白地说,TST 做的事情有点像让模型在预训练早期先“粗读”:先学习局部语义、词汇共现和粗粒度分布;等基础表示建立起来之后,再回到逐 token 的标准自回归训练,把生成能力和 token 级精度补回来。

也就是,训练时压缩 token,推理时还是普通 LLM。

TST 的提速不是玄学。它的核心是一种资源取舍,用更粗的 token 表示,换更高的数据吞吐。

标准训练中,模型每个位置处理一个 token,序列长度为 L,Transformer 就要处理 L 个表示。

因为模型是在更粗粒度的表示上计算,所以在相同FLOPs(浮点计算量),它可以处理s 倍的数据 token。



图注:在 3B 模型实验中,TST 在 equal-loss 设置下用更少训练步数达到 baseline loss,说明其主要收益来自训练早期更高的数据吞吐

传统预训练像逐字精读;而 TST 的早期训练则像是先快速扫一遍段落,抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后,再切回逐字精读。

这种“粗读”并非没有代价——它会丢失 bag 内的词序信息,所以不能全程使用。但在模型刚接触语言统计结构时,这种低分辨率输入反而够用且高效。

这与当前主流的效率路线截然不同:MoE是让每个 token 少激活参数;稀疏注意力是让每个 token 少看位置;MTP(Multi-Token Prediction,多 token 预测)是让每个位置多预测几个未来 token;而TST,是让模型在训练早期换一种 token 粒度学习。

它不是让模型变小,也不是直接让推理变快,而是让预训练早期的每一步都更“值钱”。

这对开发者至关重要。预训练不是一锤子买卖,而是不断试错的过程。早期训练越快进入有效区间,数据配方、超参设置这些实验就能越早得到验证。

说白了,TST 省下的不只是一次训练的 GPU 小时,更是整个实验周期的试错成本。

3 最大收益来自百亿参数模型



图注:TST 在不同规模模型上的核心实验结果



图注:在 10B-A1B MoE 实验中,TST 将 B200 GPU 训练时间消耗降到 baseline 的四成左右,并取得更低 loss 和更好的 0-shot 指标

这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练,而是成功之前的所有试错。一次实验少用一半以上 GPU 时间,意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。



图注:不同 bag size 和训练比例下,TST 在 loss 与下游评测上都呈现相对稳定收益

另外,TST 并非单一机制在起作用。



这也是为什么 TST 和 MTP 看起来有点像,但本质不完全一样。

MTP 更像是在同一个位置额外预测多个未来 token;TST 则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目,一个是改变学习分辨率。

4 训练降本开始转向学习路径优化

TST 最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:训练降本,别总盯着模型结构开刀。

过去一提降本,大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活,家里没有余粮的团队根本接不住。但这次,TST 给了一个轻得多的切口:只调整预训练早期的学习路径。

这意味着什么?

同样多的 GPU 预算能多试几轮配方,1B 到 10B 级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说,这比硬刚前沿最新模型务实得多。

当然,TST 也不是免费午餐。

它本质上是“拿数据吞吐换 GPU 时间”,如果你是算力受限的团队,这招极香;但如果你连高质量数据都喂不饱,那 TST 不仅帮不上忙,甚至可能放大数据短板。

但这不影响它的方向价值。

TST 把一个被默认太久的问题重新拎了出来:模型学习语言的顺序,本身也可能是一种效率杠杆。

当模型越来越贵,真正有价值的创新不只是把模型做大,而是让模型更会学习。更准确地说,是让每一步训练都更值钱。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深度破案:韩军工厂惨烈爆炸,绝非意外!疯狂扩产背后藏致命死穴

深度破案:韩军工厂惨烈爆炸,绝非意外!疯狂扩产背后藏致命死穴

战友老邓
2026-06-02 11:43:48
一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

南方都市报
2026-05-31 14:26:27
黄仁勋拿下宇树科技,震惊全网!

黄仁勋拿下宇树科技,震惊全网!

财经三分钟pro
2026-06-02 15:09:08
“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

北纬的咖啡豆
2026-06-01 19:33:09
他曾担任中央办公厅代主任,大肆迫害年迈的彭老总,后被判刑18年

他曾担任中央办公厅代主任,大肆迫害年迈的彭老总,后被判刑18年

大运河时空
2026-06-01 20:45:03
一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

深圳晚报
2026-06-02 14:20:18
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
飞机降落广州白云机场后滑行四五十分钟?多乘客讲述经历,机场:正在了解情况

飞机降落广州白云机场后滑行四五十分钟?多乘客讲述经历,机场:正在了解情况

潇湘晨报
2026-06-02 18:27:24
突发!黄仁勋拿下宇树科技

突发!黄仁勋拿下宇树科技

李东阳朋友圈
2026-06-02 13:43:42
炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

就一点
2026-06-02 15:45:51
中国国民党主席郑丽文正访问美国,外交部回应

中国国民党主席郑丽文正访问美国,外交部回应

澎湃新闻
2026-06-02 15:26:26
镇政府回应“南太行野线驴友坠崖”:坠崖者系一名江苏男子,已确认离世

镇政府回应“南太行野线驴友坠崖”:坠崖者系一名江苏男子,已确认离世

红星新闻
2026-06-02 17:19:24
男子称距离登顶珠峰仅剩77米但因冲顶线路拥堵需等待两小时,无奈决定全员下撤;此前珠峰被指“很堵”,南侧创下单日274人登顶新纪录

男子称距离登顶珠峰仅剩77米但因冲顶线路拥堵需等待两小时,无奈决定全员下撤;此前珠峰被指“很堵”,南侧创下单日274人登顶新纪录

大风新闻
2026-06-02 11:54:10
3800亿龙头,涨停!“光还是那个光”

3800亿龙头,涨停!“光还是那个光”

新浪财经
2026-06-02 16:11:11
CBA最新消息!刘家成担任北控男篮老总,怀特塞德离开上海

CBA最新消息!刘家成担任北控男篮老总,怀特塞德离开上海

体坛瞎白话
2026-06-02 16:32:46
22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

中国新闻周刊
2026-06-02 18:00:54
伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

环球网资讯
2026-06-02 14:32:33
时的科技黄雍威:载人 eVTOL 要能载人

时的科技黄雍威:载人 eVTOL 要能载人

晚点LatePost
2026-05-29 09:38:03
姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

罗说NBA
2026-06-02 06:54:26
2026-06-02 18:51:00
迷迭香的记忆a
迷迭香的记忆a
迷迭香的记忆
621文章数 186关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

5岁儿子29万存款被妈妈取到剩40块 爸爸起诉法院判了

头条要闻

5岁儿子29万存款被妈妈取到剩40块 爸爸起诉法院判了

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
旅游
本地
公开课
军事航空

亲子要闻

闪闪小葵花成长正当时

旅游要闻

毕业季免门票!太行大峡谷为大中小学生送福利

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版