![]()
新智元报道
编辑:LRST
【新智元导读】LenVM将长度建模提升到token级别,开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型;相同token预算下推理准确率提升10倍(63% vs 6%);沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining
Token 是现代自回归模型的基本计算单元,每一个都意味着前向传播、KV缓存占用、延迟累积和能耗。随着长链推理(long-CoT)和智能体工作流(agentic workflow)的兴起,生成长度直接牵动两件事:它是推理成本的核心变量,也影响推理质量——更多 token 带来更多思考空间,过多则造成浪费。
现有的长度控制方法,全都太粗糙了:训练时加序列级惩罚,模型生成途中对「还剩多少」毫无感知;prompt 指令本质是「祈求」模型遵守,没有任何硬约束;预解码长度预测器只做一次性判断,之后无法动态调整。它们的共同局限是:都在序列层面操作,而解码本身是逐token发生的——现有框架从未在这个粒度上建模剩余长度。
更深层地看,价值函数(value function)在强化学习中早已被证明是对「未来回报」建模的强大工具,然而长度从未被当作一个值函数量来看待——既没有配套的训练范式,也没有经过验证的 scaling 路径。
![]()
来自UC Santa Barbara和Apple等机构的研究团队提出了Length Value Model(LenVM),同时回答了两个问题:
① 如何进行token级长度建模?
将生成长度建模转化为强化学习中的价值估计(value estimation)问题:对每个生成的 token 分配固定负奖励,折扣累加得到「剩余生成长度」的有界单调代理信号。这样,模型在每一个解码步都拥有一个明确的「还剩多远」的量化估计。
② 如何做到可扩展的价值预训练(scalable value pretraining)?
这一构造天然带来四个对大规模预训练极为友好的性质:无需标注(annotation-free),信号密集(dense),无偏(unbiased),可扩展(scalable)。
这意味着LenVM的训练本质上是一种自监督过程——无需任何额外的人工标注或奖励模型,像预训练语言模型一样,只需「喂数据」就能持续变强。
![]()
论文:https://arxiv.org/abs/2604.27039
代码:https://github.com/eric-ai-lab/Length-Value-Model
项目主页:https://length-value-model.github.io/
Demo:https://length-value-model.github.io/demo/index.html
技术方案详解
核心思想:把剩余长度变成一个值函数
LenVM的核心思路简洁而优雅:把生成长度当成一种成本。给每个token分配固定的负奖励,剩余长度就自然成为一个值函数预测问题。
具体地,对每个非终止解码步t,分配固定负奖励:
对应的折扣回报为:
其中L是序列总长度,γ∈(0,1) 是折扣因子。这个回报具有三个关键性质:
有界:,无论序列多长,目标值始终在固定范围内
单调:越接近终止,越靠近0;剩余越多,越靠近-1。值的大小直接编码还要走多远
Bellman 一致:满足,完全契合标准值函数框架
由此定义的token级TD残差,直接度量了当前token如何改变对剩余生成长度的预期——这是一个此前从未存在过的信号。
为什么不直接预测原始token数?
生成长度从几个token到32k不等,动态范围极大,难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0),同时保持严格单调,折扣因子γ是分辨率的调节旋钮:较大的γ在生成早期分辨率更高,较小的γ在接近终止时更精细。
可扩展的价值预训练:免标注、三轴 Scaling
这是 LenVM 区别于所有现有长度控制方法的核心优势,也是这项工作最值得关注的地方。
传统价值模型的规模上限由标注成本和质量锁死。LenVM完全绕开了这些瓶颈。训练目标由 token 级均方误差构成:
![]()
这是在序列的每一个 token 位置用该位置实际观测到的折扣剩余长度做蒙特卡洛回归。监督信号完全由采样的 completion 自动生成,具备四个关键性质:
监督信号完全由采样的completion自动生成,具备四个关键性质:
![]()
实验验证了LenVM沿三个轴同步scaling:
模型规模(0.5B → 32B):更大的模型始终带来更低的验证损失
训练prompt数(10k → 100k):更广泛的数据覆盖持续改善长度建模质量
每prompt采样数(n=1 → n=16):更多 completion 轨迹带来更强的监督
三个轴全部单调下降,说明 LenVM 作为价值预训练目标是良定义的(well-posed):不存在数据饱和,投入越多资源,长度建模能力越强。
![]()
三种推理时应用与实验结果
LenVM 学到的 token 级长度信号有多好?作者团队通过三种推理阶段的应用来验证,所有应用均不修改基础生成模型。
应用一:精确长度控制
在每个解码步,LenVM对候选token逐一预测下一状态的值,据此选择token:Equal To选预测值最接近目标折扣回报的 token;At Most选值最大(接近 0)的 token 引导早终止;At Least选值最小(接近 -1)的 token 引导延续生成。这是真正的token 级硬约束,而非粗粒度的「祈求」。
在 LIFEBench 基准(问答、摘要、推理、创意写作,中英文各 180 条)上,Qwen2.5-3B + LenVM(1.5B)的长度得分从25.6跃升至62.6,长度偏差从83%降至56%,大幅领先GPT-5.4(37.4)、Claude-Opus-4-6(35.5)、Gemini-3.1-Pro(49.3)等所有闭源模型;Qwen2.5-7B + LenVM更进一步,得分达到64.8,偏差仅44%。
闭源模型再强,基于 prompt 的粗粒度控制也有天然上限——LenVM提供的是每一步解码都在生效的精确约束。
![]()
应用二:性能-效率连续权衡
通过指数倾斜(exponential tilting),LenVM对基础模型的token分布进行软性重加权:
![]()
时,预期续写更短的token获得更高概率;
退化为原始模型。这是一个连续旋钮,平滑地在推理质量和token消耗之间权衡。
在GSM8K上,token预算200时:硬截断基线Pass@1 ≈6%,LenVM引导解码Pass@1 ≈63%,相差10倍。这个结果揭示了一个重要事实:基础模型本身就具备用更短路径解题的能力,只是通常选不到这些路径——LenVM通过精细重加权把它们「挖」了出来。在 MATH500 和 MathVista(视觉数学推理)上,LenVM同样全程优于硬截断基线,随β平滑描绘出 Pareto 前沿。
![]()
应用三:生成长度预测
LenVM能从 prompt 边界(第一个 response token 生成前)就预测总生成长度,对推理系统的批处理分组、KV 缓存预分配、请求优先级排序有直接价值——而这些信息目前只能在解码完成后才能获得。32B 模型在数学域的平均相对误差(MRE)已低至9.8%,代码域 14.9%,指令跟随域 17.1%,且随模型规模一致改善。
![]()
额外收获:哪些token在「延长」或「收束」推理?
LenVM 的 token 级 TD 残差还提供了一个此前不存在的观察视角
延长推理的token()如 wait、but、ah、think、consider,往往对应推理转折与反思,其中 ah 频繁出现在「Ah! I see the mistake」这类顿悟时刻(Aha Moment);
收束推理的 token()如 therefore、clearly、perfect 及 ✅ 等收尾标记,对应答案确认与生成终止。LenVM 不只是一个控制信号,也是观察模型如何推理的一扇新窗口。
![]()
总结
LenVM的贡献可以从两个层面来理解。
对长度建模:它将控制粒度从序列级推进到token级,让每一步解码都有明确的「剩余长度感知」。这打破了现有所有方法的共同天花板——无论是prompt控制、训练惩罚还是预解码预测器,都无法提供逐token的动态约束信号。3B开源模型在精确长度控制上击败GPT-5.4和Claude-Opus-4-6,不是「调了个好prompt」,而是因为它第一次真正拥有了 token 级的长度信号。
对 Scaling:长度作为值函数,其训练目标天然免标注、信号密集、三轴可扩展,scaling规律与语言模型预训练高度一致。这证明了生成长度是可扩展价值预训练的一个新维度——不需要额外标注,只需要更多计算和更多数据,长度建模能力就能持续提升。
同时,LenVM也为未来RL训练提供了一个长度专属的价值基线:可以在PPO中作为密集优势信号,或通过势函数奖励整形在不改变任务目标的前提下改善信用分配。
生成长度不应该只是事后统计出来的数字。它应该是模型在每一步解码时都能感知、都在权衡的信号——就像模型感知语义和语法一样。LenVM让这件事第一次成为可能。
参考资料:
https://arxiv.org/abs/2604.27039
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.