网易首页 > 网易号 > 正文 申请入驻

英伟达帮你省钱,让大模型推理「短而精」,速度快5倍

0
分享至

来源:市场资讯

(来源:机器之心)


大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。

如果 scale-up 长链思维是通往 AGI 的路径,那么现有思维链的冗长问题是我们亟待解决的。

那么,能不能让模型「少说废话」,既快又准?

过去的尝试大多失败:各种复杂的长度惩罚(Length Penalty)要么让模型乱答,要么训练不稳定,结果就是效率提升了,准确率却掉了。

现在,英伟达研究院的最新研究给出了答案:关键不在于设计多复杂的惩罚,而在于用对强化学习优化方法。


  • 论文标题:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning

  • 论文链接: https://arxiv.org/html/2510.15110v1

  • 项目主页: https://nvlabs.github.io/DLER/


DLER 来了!推理模型的「减长秘籍」

DLER 首先是细致及全面了分析了引入长度惩罚之后出现的新的强化学习训练问题,包括:

  • Reward 信号方差增大

  • 「Aha Moment」词不当处理带来的熵塌缩

  • 训练信号过度稀疏 (刚开始训练的时候大部分生成都超过了预设长度)

对于这些问题,DLER 提出了一套简单却强大的强化学习训练配方:

  • Advantage normalization with local mean and batch std:替代 GRPO,稳定训练信号,避免因截断惩罚带来的高方差。

  • Higher clip:提升高熵探索,防止模型「思想僵化」。

  • Dynamic sampling:丢掉无效样本,聚焦真正有价值的推理路径。

  • Truncation penalty:最简单的「截断惩罚」,不给超长输出任何奖励。

基于 DLER 这套训练方法,得到的模型结果令人震惊。新模型产生的推理长度竟然可以减少 70% 以上,但准确率完全保持。在 AIME-24 数学基准上,DLER-Qwen-R1-7B 平均仅用 3230 Tokens 就达到 55.6% 准确率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。


DLER 不仅实现了回复问题更短的输出,更是从另外角度增加了每 token 的智能含量。 在同样的推理时间内,相比于传统的推理模型只能生成一条冗长推理,DLER 模型能并行生成几十条简明推理,最终准确率比 DeepSeek-R1 高出近 50%。这一实验也意味着高效推理才是 Test-time Scaling 的关键。

关键发现

DLER 的研究揭示了几个颠覆性结论:

  • 推理效率的提升,不取决于惩罚设计的复杂度,而取决于优化算法的选择。

  • 过去大家以为 RL 长度惩罚「必然掉准确率」,其实只是因为优化方法没选对。

  • 简单的截断惩罚 + 正确的优化器,就能让模型学会「短而精」的思考方式。

更令人惊喜的是,DLER 不仅适用于小模型,在大模型上同样奏效。研究团队还提出了权重选择性合并(magnitude-selective weight merging),解决了大模型用公开数据微调时的性能下降问题:既能恢复全部准确率,又能保持近一半的长度压缩。

总结

这项来自 NVIDIA 的最新工作,让我们重新认识了推理模型的未来方向。首先,推理模型不能只是一味拉长推理链条,而是需要更聪明、更高效地思考。其次,通过 DLER,模型能以更少的 Tokens、更短的时间,做到更高的准确率。 如果说之前的研究 ProRL 让模型「开窍」,那么 DLER 就是帮模型「瘦身健身」,让它们更快、更强、更实用。未来在实际部署中,DLER 无疑会成为让推理模型真正落地的关键技术之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际奥委会宣布只有生理女性才能参加女子比赛,是川普的一大胜利

国际奥委会宣布只有生理女性才能参加女子比赛,是川普的一大胜利

壹家言
2026-03-29 07:25:16
1-0大冷门!中国队2胜1平创佳绩,新星王钰栋闪耀全场

1-0大冷门!中国队2胜1平创佳绩,新星王钰栋闪耀全场

孙譁北漂拍客
2026-03-29 08:17:55
“以军濒临崩溃”,内塔尼亚胡还能打多久?| 京酿馆

“以军濒临崩溃”,内塔尼亚胡还能打多久?| 京酿馆

新京报评论
2026-03-29 19:05:41
魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

史海流年号
2026-03-29 12:14:27
歼20总设计师被除名:顶头上司受贿7亿判死缓,事发全过程被还原

歼20总设计师被除名:顶头上司受贿7亿判死缓,事发全过程被还原

博士观察
2026-03-28 21:02:35
全美50州爆发抗议示威,高喊特朗普下台,万斯宣布撤军伊朗

全美50州爆发抗议示威,高喊特朗普下台,万斯宣布撤军伊朗

莉莉和奶奶
2026-03-29 19:19:10
接陌生电话不要先出声

接陌生电话不要先出声

大象新闻
2026-03-29 07:29:10
3月30日俄乌最新:川普要动手了?

3月30日俄乌最新:川普要动手了?

西楼饮月
2026-03-29 22:00:44
李荣浩预判封神,单依纯道歉果然甩锅团队!李荣浩再发四连问声讨

李荣浩预判封神,单依纯道歉果然甩锅团队!李荣浩再发四连问声讨

露珠聊影视
2026-03-29 17:57:06
Deepseek现在怎么没声音了,梁文峰的低调错失了宝贵的发展时机?

Deepseek现在怎么没声音了,梁文峰的低调错失了宝贵的发展时机?

上林院
2026-03-29 10:30:20
老天呐,差点没认出来,真人比电视上还漂亮

老天呐,差点没认出来,真人比电视上还漂亮

乡野小珥
2026-03-30 00:14:46
军号被粉底液将军粉丝围攻,编剧汪海林发声:真是无法无天

军号被粉底液将军粉丝围攻,编剧汪海林发声:真是无法无天

往史过眼云烟
2026-03-28 14:32:07
不装了!徐帆回应离婚7个月后,冯小刚贴脸养女,担心的事发生了

不装了!徐帆回应离婚7个月后,冯小刚贴脸养女,担心的事发生了

共工之锚
2026-03-29 18:18:53
张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

魔都姐姐杂谈
2026-03-28 18:18:48
伊朗新任最高领袖为何从不露面?专家分析

伊朗新任最高领袖为何从不露面?专家分析

政知新媒体
2026-03-29 22:40:41
国铁回应广东高铁晚点原因:一彩钢瓦棚顶连同钢架梁被吹至高铁接触网致挂异物停电

国铁回应广东高铁晚点原因:一彩钢瓦棚顶连同钢架梁被吹至高铁接触网致挂异物停电

澎湃新闻
2026-03-29 23:52:26
被骗160万,中国工厂把日方模具挂上闲鱼,拍出37万天价 对方急了

被骗160万,中国工厂把日方模具挂上闲鱼,拍出37万天价 对方急了

三农老历
2026-03-29 18:35:46
新华社说对了,但没说全:这场抗议真正可怕的不是人数

新华社说对了,但没说全:这场抗议真正可怕的不是人数

青青子衿
2026-03-29 22:51:22
自研世界模型发布,零跑打响辅助驾驶元年第一枪!

自研世界模型发布,零跑打响辅助驾驶元年第一枪!

车东西
2026-03-27 20:05:15
张雪峰遗体转运画面流出!前妻和现任妻子现身,下属向遗像三叩首

张雪峰遗体转运画面流出!前妻和现任妻子现身,下属向遗像三叩首

博士观察
2026-03-29 11:52:26
2026-03-30 08:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2671655文章数 6238关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

伊朗外交部发言人:美国提出的建议非常极端且不合理

头条要闻

伊朗外交部发言人:美国提出的建议非常极端且不合理

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

时尚
本地
房产
数码
公开课

来到1980的周也,好毛利兰

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

数码要闻

内存条价格被曝出现断崖式下跌,一天跌去百元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版