Nous新法TST：GPU耗时降61.3%，训练提速2.5倍|实验|推理|gpu|预训练|tst

Nous新法TST：GPU耗时降61.3%，训练提速2.5倍

分享至

模型能力还需往上走，但训练成本却不能再无止境堆砌了——这可能是当前 AI 行业最强烈的共识。

从开发者到模型公司，大家关心的焦点已经不只是“谁家的模型更强”，而是一个更务实的问题：“同样多的 GPU、同样的训练时间，能不能跑出更多有效实验，吃进更多有效数据，拿到更好的 loss 和下游指标？”

凭借 Hermes Agent （140K Star）火速出圈的Nous Research 团队，刚刚提出了一种 Token 叠加训练方法：Token Superposition Training （TST），有望把大模型的预训练成本压低一个量级。

换言之，TST 只用了约四成 GPU 时间，就跑出了更低的 loss 和更好的下游指标。相当于在相同最终损失下将预训练时间压缩到原来的 40%，提速约 2.5 倍。

如果说，超越龙虾（OpenClaw）、登顶全球 OpenRouter 的 Hermes Agent，证明了 Nous Research 团队既会训模型，也能用 Agent 把能力调教到极致；那么最新提出的 TST，则是把视线从“模型怎么用”，进一步拉回了能力的源头，直击预训练本身。

之所以将 Nous Research 与 DeepSeek 对标，不只是因为这支美国团队同样长期坚守开源阵营，更因二者的降本路线截然不同。

DS 代表的是系统级重构，无论是 MoE、MLA，还是稀疏化与并行优化，皆靠系统级工程压榨算力。效率提升从来不是免费的，工程总要在别处为复杂度买单。

而 NR 则是重写预训练早期的学习路径。它不碰架构，从模型学习 token 的方式本身下手，切口更轻巧，更容易落地。

1 TST：让模型先“粗读”，再“精读”

要理解 TST，让我们先回到预训练最基础的动作：next-token prediction（下一个词元的预测）。

标准训练里，模型看到前面的 token，预测下一个 token。这个机制很简单，也很强。过去几年，几乎所有主流 LLM 都是在这个范式上堆出来的。

但 TST 提出了一个很朴素的问题：模型在预训练一开始，真的有必要逐 token 精读吗？

NR 的答案是：不一定。他们把预训练拆成两个阶段。

图注：TST 与标准 next-token prediction、MTP、SuperBPE 的对比。TST 在训练早期同时改变输入粒度和输出监督目标，但不改变最终模型架构

输入侧，模型会把这一组 token 的 embedding （“向量表示”）求平均，变成一个压缩后的superposed token（“叠加词元”）。输出侧，模型也不再预测下一个单独 token，而是预测下一组 token 里会出现哪些 token。

第二阶段叫recovery phase（“恢复阶段”）。训练跑到一定比例后，TST 被移除，模型重新回到标准 next-token prediction。也就是说，后半程还是按照普通 LLM 的方式训练，把前期“粗粒度学习”得到的表示，拉回到可生成、可部署的自回归模型形态。

这也是它和很多训练提效方案不一样的地方：TST 只改变训练过程，不改变推理模型。

目前很多方法一旦触及训练端优化，就会牵动推理。比如换 tokenizer，生态兼容要重来；改模型结构，部署链路要适配；改注意力或推理机制，线上服务也要跟着调整。

但 TST 是把复杂度留在训练阶段，最终交付的仍然是一个普通 LLM。

这也解释了为什么 TST 更适合被理解为一种“阶段化训练策略”，而不是 next-token prediction 的替代品。

更直白地说，TST 做的事情有点像让模型在预训练早期先“粗读”：先学习局部语义、词汇共现和粗粒度分布；等基础表示建立起来之后，再回到逐 token 的标准自回归训练，把生成能力和 token 级精度补回来。

也就是，训练时压缩 token，推理时还是普通 LLM。

TST 的提速不是玄学。它的核心是一种资源取舍，用更粗的 token 表示，换更高的数据吞吐。

标准训练中，模型每个位置处理一个 token，序列长度为 L，Transformer 就要处理 L 个表示。

因为模型是在更粗粒度的表示上计算，所以在相同FLOPs（浮点计算量），它可以处理s 倍的数据 token。

图注：在 3B 模型实验中，TST 在 equal-loss 设置下用更少训练步数达到 baseline loss，说明其主要收益来自训练早期更高的数据吞吐

传统预训练像逐字精读；而 TST 的早期训练则像是先快速扫一遍段落，抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后，再切回逐字精读。

这种“粗读”并非没有代价——它会丢失 bag 内的词序信息，所以不能全程使用。但在模型刚接触语言统计结构时，这种低分辨率输入反而够用且高效。

这与当前主流的效率路线截然不同：MoE是让每个 token 少激活参数；稀疏注意力是让每个 token 少看位置；MTP（Multi-Token Prediction，多 token 预测）是让每个位置多预测几个未来 token；而TST，是让模型在训练早期换一种 token 粒度学习。

它不是让模型变小，也不是直接让推理变快，而是让预训练早期的每一步都更“值钱”。

这对开发者至关重要。预训练不是一锤子买卖，而是不断试错的过程。早期训练越快进入有效区间，数据配方、超参设置这些实验就能越早得到验证。

说白了，TST 省下的不只是一次训练的 GPU 小时，更是整个实验周期的试错成本。

3 最大收益来自百亿参数模型

图注：TST 在不同规模模型上的核心实验结果

图注：在 10B-A1B MoE 实验中，TST 将 B200 GPU 训练时间消耗降到 baseline 的四成左右，并取得更低 loss 和更好的 0-shot 指标

这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练，而是成功之前的所有试错。一次实验少用一半以上 GPU 时间，意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。

图注：不同 bag size 和训练比例下，TST 在 loss 与下游评测上都呈现相对稳定收益

另外，TST 并非单一机制在起作用。

这也是为什么 TST 和 MTP 看起来有点像，但本质不完全一样。

MTP 更像是在同一个位置额外预测多个未来 token；TST 则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目，一个是改变学习分辨率。

4 训练降本开始转向学习路径优化

TST 最大的看头，不是它设计了多复杂的新架构，而是它点醒了一件事：训练降本，别总盯着模型结构开刀。

过去一提降本，大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活，家里没有余粮的团队根本接不住。但这次，TST 给了一个轻得多的切口：只调整预训练早期的学习路径。

这意味着什么？

同样多的 GPU 预算能多试几轮配方，1B 到 10B 级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说，这比硬刚前沿最新模型务实得多。

当然，TST 也不是免费午餐。

它本质上是“拿数据吞吐换 GPU 时间”，如果你是算力受限的团队，这招极香；但如果你连高质量数据都喂不饱，那 TST 不仅帮不上忙，甚至可能放大数据短板。

但这不影响它的方向价值。

TST 把一个被默认太久的问题重新拎了出来：模型学习语言的顺序，本身也可能是一种效率杠杆。

当模型越来越贵，真正有价值的创新不只是把模型做大，而是让模型更会学习。更准确地说，是让每一步训练都更值钱。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

Nous新法TST：GPU耗时降61.3%，训练提速2.5倍

烧掉千亿后，美团、阿里、京东谁先止血？

5岁儿子29万存款被妈妈取到剩40块 爸爸起诉法院判了

5岁儿子29万存款被妈妈取到剩40块 爸爸起诉法院判了

1米74的业余联赛替补，在英超踢中卫

奚梦瑶何猷君补办婚礼超幸福

智元和宇树的“暗战”愈演愈烈

星途神秘新车轮廓曝光 又一款性能SUV要来了？

态度原创

闪闪小葵花成长正当时

毕业季免门票！太行大峡谷为大中小学生送福利

用剪纸的方式，打开江苏扬州

伊朗媒体新发布最高领袖照片

5岁儿子29万存款被妈妈取到剩40块爸爸起诉法院判了

5岁儿子29万存款被妈妈取到剩40块爸爸起诉法院判了

星途神秘新车轮廓曝光又一款性能SUV要来了？