网易首页 > 网易号 > 正文 申请入驻

英伟达帮你省钱,让大模型推理「短而精」,速度快5倍

0
分享至

来源:市场资讯

(来源:机器之心)


大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。

如果 scale-up 长链思维是通往 AGI 的路径,那么现有思维链的冗长问题是我们亟待解决的。

那么,能不能让模型「少说废话」,既快又准?

过去的尝试大多失败:各种复杂的长度惩罚(Length Penalty)要么让模型乱答,要么训练不稳定,结果就是效率提升了,准确率却掉了。

现在,英伟达研究院的最新研究给出了答案:关键不在于设计多复杂的惩罚,而在于用对强化学习优化方法。


  • 论文标题:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning

  • 论文链接: https://arxiv.org/html/2510.15110v1

  • 项目主页: https://nvlabs.github.io/DLER/


DLER 来了!推理模型的「减长秘籍」

DLER 首先是细致及全面了分析了引入长度惩罚之后出现的新的强化学习训练问题,包括:

  • Reward 信号方差增大

  • 「Aha Moment」词不当处理带来的熵塌缩

  • 训练信号过度稀疏 (刚开始训练的时候大部分生成都超过了预设长度)

对于这些问题,DLER 提出了一套简单却强大的强化学习训练配方:

  • Advantage normalization with local mean and batch std:替代 GRPO,稳定训练信号,避免因截断惩罚带来的高方差。

  • Higher clip:提升高熵探索,防止模型「思想僵化」。

  • Dynamic sampling:丢掉无效样本,聚焦真正有价值的推理路径。

  • Truncation penalty:最简单的「截断惩罚」,不给超长输出任何奖励。

基于 DLER 这套训练方法,得到的模型结果令人震惊。新模型产生的推理长度竟然可以减少 70% 以上,但准确率完全保持。在 AIME-24 数学基准上,DLER-Qwen-R1-7B 平均仅用 3230 Tokens 就达到 55.6% 准确率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。


DLER 不仅实现了回复问题更短的输出,更是从另外角度增加了每 token 的智能含量。 在同样的推理时间内,相比于传统的推理模型只能生成一条冗长推理,DLER 模型能并行生成几十条简明推理,最终准确率比 DeepSeek-R1 高出近 50%。这一实验也意味着高效推理才是 Test-time Scaling 的关键。

关键发现

DLER 的研究揭示了几个颠覆性结论:

  • 推理效率的提升,不取决于惩罚设计的复杂度,而取决于优化算法的选择。

  • 过去大家以为 RL 长度惩罚「必然掉准确率」,其实只是因为优化方法没选对。

  • 简单的截断惩罚 + 正确的优化器,就能让模型学会「短而精」的思考方式。

更令人惊喜的是,DLER 不仅适用于小模型,在大模型上同样奏效。研究团队还提出了权重选择性合并(magnitude-selective weight merging),解决了大模型用公开数据微调时的性能下降问题:既能恢复全部准确率,又能保持近一半的长度压缩。

总结

这项来自 NVIDIA 的最新工作,让我们重新认识了推理模型的未来方向。首先,推理模型不能只是一味拉长推理链条,而是需要更聪明、更高效地思考。其次,通过 DLER,模型能以更少的 Tokens、更短的时间,做到更高的准确率。 如果说之前的研究 ProRL 让模型「开窍」,那么 DLER 就是帮模型「瘦身健身」,让它们更快、更强、更实用。未来在实际部署中,DLER 无疑会成为让推理模型真正落地的关键技术之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
豪掷150亿,特斯拉要“去中国化”!

豪掷150亿,特斯拉要“去中国化”!

金投网
2025-11-07 16:20:25
蒋万安被问到对郑丽文祭拜吴石一事的看法时,彻底撕下伪装

蒋万安被问到对郑丽文祭拜吴石一事的看法时,彻底撕下伪装

放开他让wo来
2025-11-08 22:35:20
澳洲地产大亨之子重病赴华求治,老中医开口一句令男子彻底傻眼

澳洲地产大亨之子重病赴华求治,老中医开口一句令男子彻底傻眼

红豆讲堂
2025-10-14 09:30:03
这届网友要「造反」了!雷军抖音视频首次遭举报下架

这届网友要「造反」了!雷军抖音视频首次遭举报下架

汽车有文化
2025-11-07 20:33:15
我在广州退休后,在苏州定居的真实感受,全是实话

我在广州退休后,在苏州定居的真实感受,全是实话

小虎新车推荐员
2025-11-09 01:44:28
他防不住我!威少连造亚历山大两犯喊话曝光 主帅再次强调做自己

他防不住我!威少连造亚历山大两犯喊话曝光 主帅再次强调做自己

罗说NBA
2025-11-09 07:18:04
浙江温州一河道有两人跳河,搜救现场聚集大量围观群众,知情人透露:已救起一人,另一人仍在打捞中

浙江温州一河道有两人跳河,搜救现场聚集大量围观群众,知情人透露:已救起一人,另一人仍在打捞中

新浪财经
2025-11-09 14:07:30
美国30年为何没下死手?奥巴马揭开真相:是中国人没给机会

美国30年为何没下死手?奥巴马揭开真相:是中国人没给机会

普览
2025-11-10 00:34:31
上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

南权先生
2025-11-08 14:52:26
发现一个很奇怪的现象:30岁往后的大龄剩女,最后基本都嫁给了

发现一个很奇怪的现象:30岁往后的大龄剩女,最后基本都嫁给了

荷兰豆爱健康
2025-11-10 02:40:38
沙特王子离奇重病赴华求医,中医把脉3分钟,1句话让随行医生傻眼

沙特王子离奇重病赴华求医,中医把脉3分钟,1句话让随行医生傻眼

小哥很OK
2025-10-14 17:59:41
莫文蔚演唱会,到这个年纪了,感觉没有这个必要了吧!

莫文蔚演唱会,到这个年纪了,感觉没有这个必要了吧!

喜欢历史的阿繁
2025-11-07 09:59:45
瞒不下去了?特朗普在众目睽睽之下,承认关税不是由中国来承担

瞒不下去了?特朗普在众目睽睽之下,承认关税不是由中国来承担

现代小青青慕慕
2025-11-10 00:02:16
1000场不都是里程“悲”!瓜帅复仇,穆帅狂奔,温格6球惨败

1000场不都是里程“悲”!瓜帅复仇,穆帅狂奔,温格6球惨败

奥拜尔
2025-11-10 02:29:00
张柏芝前老板曝猛料:为了钱像狗一样舔我!到手后马上翻脸不认人

张柏芝前老板曝猛料:为了钱像狗一样舔我!到手后马上翻脸不认人

八星人
2025-11-07 10:49:22
爆冷!孔蒂气炸了,卫冕冠军轰然倒下,霍伊伦又哑火:4场0进球

爆冷!孔蒂气炸了,卫冕冠军轰然倒下,霍伊伦又哑火:4场0进球

足球狗说
2025-11-09 23:57:05
49岁经理被调岗看门,当晚退出微信群,次日领导找遍10个经销商

49岁经理被调岗看门,当晚退出微信群,次日领导找遍10个经销商

兰姐说故事
2025-10-17 20:05:03
医院17分钟视频瓜后续,疑似因吃醋被偷拍,女方与前夫合影被扒

医院17分钟视频瓜后续,疑似因吃醋被偷拍,女方与前夫合影被扒

大双
2025-11-09 22:52:39
曾医生的问题,从来不是“太主动”,别再拿“医术好”当遮羞布

曾医生的问题,从来不是“太主动”,别再拿“医术好”当遮羞布

吃瓜盟主
2025-11-08 15:48:21
赶在坐飞机来陆前,郑丽文率先发出邀请,解放军轰6K飞抵台岛周边

赶在坐飞机来陆前,郑丽文率先发出邀请,解放军轰6K飞抵台岛周边

书中自有颜如玉
2025-10-30 03:41:02
2025-11-10 04:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1324418文章数 4429关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

艺术
亲子
数码
教育
公开课

艺术要闻

探索风情万种的高级美,优雅与野性并存!

亲子要闻

宝妈必学,孩子防侵犯能力中的ACM为什么很重要?

数码要闻

内存、硬盘价格暴涨到扛不住!铭凡官宣旗下迷你主机涨价

教育要闻

收藏!2026艺术类文化课录取分数线要求

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版