网易首页 > 网易号 > 正文 申请入驻

token级,精准控制生成长度:3B模型击败GPT 5.4、Claude

0
分享至


新智元报道

编辑:LRST

【新智元导读】LenVM将长度建模提升到token级别,开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型;相同token预算下推理准确率提升10倍(63% vs 6%);沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining

Token 是现代自回归模型的基本计算单元,每一个都意味着前向传播、KV缓存占用、延迟累积和能耗。随着长链推理(long-CoT)和智能体工作流(agentic workflow)的兴起,生成长度直接牵动两件事:它是推理成本的核心变量,也影响推理质量——更多 token 带来更多思考空间,过多则造成浪费。

现有的长度控制方法,全都太粗糙了:训练时加序列级惩罚,模型生成途中对「还剩多少」毫无感知;prompt 指令本质是「祈求」模型遵守,没有任何硬约束;预解码长度预测器只做一次性判断,之后无法动态调整。它们的共同局限是:都在序列层面操作,而解码本身是逐token发生的——现有框架从未在这个粒度上建模剩余长度。

更深层地看,价值函数(value function)在强化学习中早已被证明是对「未来回报」建模的强大工具,然而长度从未被当作一个值函数量来看待——既没有配套的训练范式,也没有经过验证的 scaling 路径。


来自UC Santa Barbara和Apple等机构的研究团队提出了Length Value Model(LenVM),同时回答了两个问题:

① 如何进行token级长度建模?

将生成长度建模转化为强化学习中的价值估计(value estimation)问题:对每个生成的 token 分配固定负奖励,折扣累加得到「剩余生成长度」的有界单调代理信号。这样,模型在每一个解码步都拥有一个明确的「还剩多远」的量化估计。

② 如何做到可扩展的价值预训练(scalable value pretraining)?

这一构造天然带来四个对大规模预训练极为友好的性质:无需标注(annotation-free),信号密集(dense),无偏(unbiased),可扩展(scalable)。

这意味着LenVM的训练本质上是一种自监督过程——无需任何额外的人工标注或奖励模型,像预训练语言模型一样,只需「喂数据」就能持续变强。


论文:https://arxiv.org/abs/2604.27039

代码:https://github.com/eric-ai-lab/Length-Value-Model

项目主页:https://length-value-model.github.io/

Demo:https://length-value-model.github.io/demo/index.html

技术方案详解

核心思想:把剩余长度变成一个值函数

LenVM的核心思路简洁而优雅:把生成长度当成一种成本。给每个token分配固定的负奖励,剩余长度就自然成为一个值函数预测问题。

具体地,对每个非终止解码步t,分配固定负奖励:

对应的折扣回报为:

其中L是序列总长度,γ∈(0,1) 是折扣因子。这个回报具有三个关键性质:

  • 有界:,无论序列多长,目标值始终在固定范围内

  • 单调:越接近终止,越靠近0;剩余越多,越靠近-1。值的大小直接编码还要走多远

  • Bellman 一致:满足,完全契合标准值函数框架

由此定义的token级TD残差,直接度量了当前token如何改变对剩余生成长度的预期——这是一个此前从未存在过的信号。

为什么不直接预测原始token数?

生成长度从几个token到32k不等,动态范围极大,难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0),同时保持严格单调,折扣因子γ是分辨率的调节旋钮:较大的γ在生成早期分辨率更高,较小的γ在接近终止时更精细。

可扩展的价值预训练:免标注、三轴 Scaling

这是 LenVM 区别于所有现有长度控制方法的核心优势,也是这项工作最值得关注的地方。

传统价值模型的规模上限由标注成本和质量锁死。LenVM完全绕开了这些瓶颈。训练目标由 token 级均方误差构成:


这是在序列的每一个 token 位置用该位置实际观测到的折扣剩余长度做蒙特卡洛回归。监督信号完全由采样的 completion 自动生成,具备四个关键性质:

监督信号完全由采样的completion自动生成,具备四个关键性质:


实验验证了LenVM沿三个轴同步scaling:

  • 模型规模(0.5B → 32B):更大的模型始终带来更低的验证损失

  • 训练prompt数(10k → 100k):更广泛的数据覆盖持续改善长度建模质量

  • 每prompt采样数(n=1 → n=16):更多 completion 轨迹带来更强的监督

三个轴全部单调下降,说明 LenVM 作为价值预训练目标是良定义的(well-posed):不存在数据饱和,投入越多资源,长度建模能力越强。


三种推理时应用与实验结果

LenVM 学到的 token 级长度信号有多好?作者团队通过三种推理阶段的应用来验证,所有应用均不修改基础生成模型

应用一:精确长度控制

在每个解码步,LenVM对候选token逐一预测下一状态的值,据此选择token:Equal To选预测值最接近目标折扣回报的 token;At Most选值最大(接近 0)的 token 引导早终止;At Least选值最小(接近 -1)的 token 引导延续生成。这是真正的token 级硬约束,而非粗粒度的「祈求」。

在 LIFEBench 基准(问答、摘要、推理、创意写作,中英文各 180 条)上,Qwen2.5-3B + LenVM(1.5B)的长度得分从25.6跃升至62.6,长度偏差从83%降至56%,大幅领先GPT-5.4(37.4)、Claude-Opus-4-6(35.5)、Gemini-3.1-Pro(49.3)等所有闭源模型;Qwen2.5-7B + LenVM更进一步,得分达到64.8,偏差仅44%。

闭源模型再强,基于 prompt 的粗粒度控制也有天然上限——LenVM提供的是每一步解码都在生效的精确约束。


应用二:性能-效率连续权衡

通过指数倾斜(exponential tilting),LenVM对基础模型的token分布进行软性重加权:


时,预期续写更短的token获得更高概率;

退化为原始模型。这是一个连续旋钮,平滑地在推理质量和token消耗之间权衡。

在GSM8K上,token预算200时:硬截断基线Pass@1 ≈6%,LenVM引导解码Pass@1 ≈63%,相差10倍。这个结果揭示了一个重要事实:基础模型本身就具备用更短路径解题的能力,只是通常选不到这些路径——LenVM通过精细重加权把它们「挖」了出来。在 MATH500 和 MathVista(视觉数学推理)上,LenVM同样全程优于硬截断基线,随β平滑描绘出 Pareto 前沿。


应用三:生成长度预测

LenVM能从 prompt 边界(第一个 response token 生成前)就预测总生成长度,对推理系统的批处理分组、KV 缓存预分配、请求优先级排序有直接价值——而这些信息目前只能在解码完成后才能获得。32B 模型在数学域的平均相对误差(MRE)已低至9.8%,代码域 14.9%,指令跟随域 17.1%,且随模型规模一致改善。


额外收获:哪些token在「延长」或「收束」推理?

LenVM 的 token 级 TD 残差还提供了一个此前不存在的观察视角

延长推理的token()如 wait、but、ah、think、consider,往往对应推理转折与反思,其中 ah 频繁出现在「Ah! I see the mistake」这类顿悟时刻(Aha Moment)

收束推理的 token()如 therefore、clearly、perfect 及 ✅ 等收尾标记,对应答案确认与生成终止。LenVM 不只是一个控制信号,也是观察模型如何推理的一扇新窗口


总结

LenVM的贡献可以从两个层面来理解。

对长度建模:它将控制粒度从序列级推进到token级,让每一步解码都有明确的「剩余长度感知」。这打破了现有所有方法的共同天花板——无论是prompt控制、训练惩罚还是预解码预测器,都无法提供逐token的动态约束信号。3B开源模型在精确长度控制上击败GPT-5.4和Claude-Opus-4-6,不是「调了个好prompt」,而是因为它第一次真正拥有了 token 级的长度信号。

对 Scaling:长度作为值函数,其训练目标天然免标注、信号密集、三轴可扩展,scaling规律与语言模型预训练高度一致。这证明了生成长度是可扩展价值预训练的一个新维度——不需要额外标注,只需要更多计算和更多数据,长度建模能力就能持续提升。

同时,LenVM也为未来RL训练提供了一个长度专属的价值基线:可以在PPO中作为密集优势信号,或通过势函数奖励整形在不改变任务目标的前提下改善信用分配。

生成长度不应该只是事后统计出来的数字。它应该是模型在每一步解码时都能感知、都在权衡的信号——就像模型感知语义和语法一样。LenVM让这件事第一次成为可能。

参考资料:

https://arxiv.org/abs/2604.27039

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家税务总局陕西省税务局原一级巡视员郭章献

国家税务总局陕西省税务局原一级巡视员郭章献

汲古知新
2026-05-08 12:07:02
女子趁男友熟睡 偷偷通过人脸识别解锁其手机 刷脸21次盗转27万余元 女子已被刑拘

女子趁男友熟睡 偷偷通过人脸识别解锁其手机 刷脸21次盗转27万余元 女子已被刑拘

闪电新闻
2026-05-07 10:24:02
水泥的“寿命”只有50年,如果过期了,房子会发生什么变化?

水泥的“寿命”只有50年,如果过期了,房子会发生什么变化?

收藏大视界
2026-05-05 18:57:13
我国有上千万人做肺CT!医生坦言:查一次肺CT,或管数年无碍

我国有上千万人做肺CT!医生坦言:查一次肺CT,或管数年无碍

荷兰豆爱健康
2026-05-08 17:16:16
整条未拆香烟能放多久?烟草员工实锤真相,90%烟民都错了

整条未拆香烟能放多久?烟草员工实锤真相,90%烟民都错了

老特有话说
2026-05-08 14:47:21
无法承受压力:海外印度裔人士居然卷起重返印度风潮

无法承受压力:海外印度裔人士居然卷起重返印度风潮

小鹿姐姐情感说
2026-05-08 19:29:13
中美巅峰对决倒计时!中美一旦谈崩,下半年的经济会何去何从?

中美巅峰对决倒计时!中美一旦谈崩,下半年的经济会何去何从?

叮当当科技
2026-05-08 15:12:18
日本高层访华无果后,不甘心的高市决定亲自访华,中方态度坚决

日本高层访华无果后,不甘心的高市决定亲自访华,中方态度坚决

趣味八卦
2026-05-08 11:48:11
河北王牌景区白洋淀彻底翻车!五一前3天不到2万人,口碑彻底烂了

河北王牌景区白洋淀彻底翻车!五一前3天不到2万人,口碑彻底烂了

谭谈社会
2026-05-07 20:44:05
浙江杭州宋城景区,游客花280元坐囚车游街示众,网友说带薪坐牢

浙江杭州宋城景区,游客花280元坐囚车游街示众,网友说带薪坐牢

阿昌走遍中国
2026-05-08 11:29:25
李国庆自曝往事:净身出户后不舍请司机,老下属月薪8500不离不弃

李国庆自曝往事:净身出户后不舍请司机,老下属月薪8500不离不弃

洲洲影视娱评
2026-05-08 15:25:45
扎哈罗娃呼吁外交人员撤离基辅!乌克兰无人机参不参加红场阅兵?

扎哈罗娃呼吁外交人员撤离基辅!乌克兰无人机参不参加红场阅兵?

鹰眼Defence
2026-05-07 17:59:39
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
世乒赛大乱!亚洲队集体变脸,台北胜瑞典,日本胜德国,玩转计谋

世乒赛大乱!亚洲队集体变脸,台北胜瑞典,日本胜德国,玩转计谋

刘笤说体坛
2026-05-08 09:45:28
女子高反被救醒后反手打救命人一耳光,本人回应毁三观,网友怒骂

女子高反被救醒后反手打救命人一耳光,本人回应毁三观,网友怒骂

南城无双
2026-05-07 09:24:42
晚年有钱没病“五个生肖”,特别是最后一个,看你家有吗?了解下

晚年有钱没病“五个生肖”,特别是最后一个,看你家有吗?了解下

小谈食刻美食
2026-04-29 07:42:51
《教父》柯里昂临终前的顿悟:男人可以嚣张,可以蛮横,可以得罪权贵,唯独这两类人,碰了就是给自己种下祸端

《教父》柯里昂临终前的顿悟:男人可以嚣张,可以蛮横,可以得罪权贵,唯独这两类人,碰了就是给自己种下祸端

心理观察局
2026-05-08 09:32:04
豆包开始崩老头了

豆包开始崩老头了

蓝钻故事
2026-05-07 01:41:58
林彪失事后,远在台湾的蒋介石竟大哭不止,直言:雨农误我!

林彪失事后,远在台湾的蒋介石竟大哭不止,直言:雨农误我!

研史
2026-05-03 01:46:57
男子冒充大老板,订购5辆奔驰,总价450万。美女销售为促成大单,为其垫付6000余元食宿,谁知,3天后,男子突然消失,女销售才发现被骗

男子冒充大老板,订购5辆奔驰,总价450万。美女销售为促成大单,为其垫付6000余元食宿,谁知,3天后,男子突然消失,女销售才发现被骗

大爱三湘
2026-05-08 11:09:27
2026-05-08 20:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15162文章数 66850关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

头条要闻

媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

轮到豆包收割了?

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

健康
亲子
家居
数码
艺术

干细胞能让人“返老还童”吗

亲子要闻

小朋友老爱啃指甲,是身体缺什么营养吗?

家居要闻

流动的尺度 打破家的形式主义

数码要闻

三星家电退出大陆市场 部分门店已撤场 经销商集体竟流入咸鱼甩尾货

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

无障碍浏览 进入关怀版