网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 Oral|大模型总爱「想太多」? DECS从源头消除冗余思考

0
分享至

来源:市场资讯

(来源:机器之心)


本文作者来自复旦大学、上海交通大学和上海人工智能实验室。一作江书洋为复旦大学和实验室联培博士生,目前是实验室见习研究员,师从上海交通大学人工智能学院的王钰教授和张娅教授。

以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即过度思考(overthinking) :即便模型已得出正确答案,其推理过程中仍反复出现「wait...」「let me check...」「alternatively...」等自我修正与回溯性表达,造成大量冗余计算,带来大量无意义计算开销。

这一现象已引起学术界与工业界的广泛关注。一种直观的解决策略是引入「对长推理的惩罚机制」,即在强化学习训练过程中加入对过长推理序列的长度惩罚奖励项,以促使模型生成更为简洁的推理路径。

然而,实际操作中面临显著困难:若加重惩罚力度,模型倾向于省略必要的推理步骤,导致性能显著下降;若减轻惩罚力度,冗余推理依旧存在,效率难以提升。因此,推理效率与性能之间难以实现有效平衡。

在这篇 ICLR 2026 的 Oral 论文中,来自复旦大学、上海交通大学和上海人工智能实验室的研究团队首次从理论层面系统揭示了「长度惩罚」策略的根本局限性,并基于此提出了一套全新的训练框架 DECS,在五项域内基准和两项域外基准测试中,均实现了推理长度减少超过 50% 的显著成效,同时模型准确率不降反升。


  • 论文地址:https://openreview.net/forum?id=kdeiRledV6

  • 项目地址:https://pixas.github.io/decs-iclr26-site/

长度惩罚为何总是「误伤好人」?

研究团队对当前主流强化学习框架(如 GRPO)中的序列长度惩罚机制进行了一次深入的理论分析,相关证明可详见论文原文,结论揭示了两个此前从未被系统性指出的致命缺陷:

缺陷一:对高熵探索 token 的无差别攻击。 模型在推理过程中生成的「wait」「however」「alternatively」等高熵 token,本质上是逻辑衔接的「状态转移」,是找到正确答案所必需的探索行为。然而序列级的长度惩罚不区分 token 类型,一条正确的长推理链上的所有 token 都会均匀地收到负面梯度信号。当训练数据中简单题占多数、且各题回答长度差异大时,这种对高熵 token 的压制会不断累积,最终导致模型丧失探索能力,过早收敛到次优策略。

缺陷二:对局部冗余的「变相奖励」。 团队引入了一个极为关键的概念 —— 必要推理前缀(Necessary Reasoning Prefix, NRP) ,即从推理开始到首次得出正确答案所需的最短 token 序列。在 NRP 之后多出来的所有 token,本质上都是冗余。然而,现有的序列级奖励机制中,一条已经包含了 NRP 的较短回答,其 NRP 之后的冗余 token 可能仍然会收到正奖励,因为整条序列在组内相对较短。这种「奖励冗余」的信号严重扭曲了优化方向,让模型学不会在该停的时候停下来。


图 1 序列长度惩罚的两个副作用

DECS:一次「解耦」如何根治过度思考

基于上述两个理论发现,DECS 从两个维度对训练过程进行了精准重构:

第一步:解耦 token 级奖励,精准识别并惩罚冗余。

团队训练了一个轻量级的 NRP 检测器(judge model),用于定位推理链中从起始到第一个包含正确答案的「块」之间的所有 token。一旦确定了 NRP 的边界,DECS 就会对奖励函数进行「解耦」:NRP 范围内的必要推理 token 永远不受惩罚;而 NRP 之后出现的每一个冗余推理 token,都会恒定为负奖励。

通过解耦必要 token 和冗余 token,算法确保了模型只被禁止「画蛇添足」,而非在推理的每一步都进行无效思考,但并不影响模型通过反思和多样化推理推导得到正确答案。

第二步:课程式批次调度,保护探索能力不受伤。

惩罚冗余虽然直接,但也存在一个隐忧:在训练早期,惩罚信号可能无意中波及到那些看似冗余、实为探索的高熵 token。DECS 的做法是动态调整训练 batch 中简单题的比例:当模型当前的平均 NRP 占比较低(即冗余还比较多)时,就少放简单题;随着训练推进、冗余逐步减少,再逐渐提高简单题的比重。

这套课程数据调度策略本质上是一个缓冲机制,在确保冗余被充分压缩的同时,给模型留出充足的探索空间,避免「一刀切」式的惩罚扼杀了推理的多样性。


图 2 DECS 训练示意图

实验验证:多个数据集推理长度砍半,性能反升

实验覆盖了 DeepSeek-R1-Distill-1.5B、7B 以及 Qwen3-4B 三个主流基座模型,在 AIME2024/2025、MATH500、GPQA-Diamond、LiveCodeBench-v6 等七个数学、科学与编程基准上进行了系统评估。

结果令人瞩目:在 1.5B 模型上,DECS 将平均推理 token 数量削减了 57.17%,而 Pass@1 准确率反而提升了 2.48 个百分点;在更成熟的 7B 模型上,尽管模型本身的过度思考程度较轻,DECS 依然砍掉了 49.50% 的思考 token,同时带来 0.8 个百分点的准确率增益。在与 ThinkPrune、TLMRE、LC-R1 等主流基线方法的对比中,DECS 在效率 - 性能综合指标(AES score)上分别以 0.12 和 0.14 的优势显著领先。

更关键的是跨域泛化能力:DECS 的 NRP 检测器仅使用数学语料训练,但其效率优势却强有力地迁移到了科学推理(GPQA-Diamond,56.33% token 缩减)和编程任务(LiveCodeBench-v6,33.52% token 缩减)上。

这验证了一个更深层的洞见 —— 过度思考是一个跨领域的系统性现象,而 DECS 的机制足够本质,可以无差别地将模型从冗余推理中解放。


表 1 DECS 性能对比

消融实验进一步验证了两个核心组件的互补关系:去掉课程式调度,模型在压缩推理的同时出现了显著的性能退化,印证了文章中揭示的探索抑制问题;而单独去掉解耦奖励,模型仍然残留约 25% 的冗余 token,佐证了序列级奖励无法消除全部冗余的结论。


图 3 消融实验对比:解耦奖励和课程调度都至关重要

意义与启示

DECS 这项工作的核心价值,并不在于其几乎无损的压缩指标本身,而在于它所提出的问题以及从理论视角证明的结论。

当前,业界普遍聚焦于「如何让模型更善于思考」,却鲜有研究从系统性与理论层面回答两个更为根本的问题:「什么不值得思考?」以及「何时应当停止思考?」。

DECS 通过严谨的理论分析与扎实的实验验证,证明了高效推理的真正瓶颈并非模型的能力边界,而在于训练目标的精妙设计。

对于那些正受困于推理大模型高昂成本与延迟的部署者而言,DECS 提供了一套无需牺牲精度、完全开源的技术方案,相关代码已开源于 GitHub。

同时,DECS 入选 ICLR 2026 Oral 的认可也进一步印证:要从根本上缓解「过度思考」问题,优化必须回归奖励函数的本质,从策略梯度的底层机制入手,在源头消除冗余推理 token。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国不要的,中国也坚决不要!

美国不要的,中国也坚决不要!

隔壁董小姐
2026-05-11 07:52:20
3分钟倾家荡产?年入千亿“精神鸦片”,正精准掏空中国人的钱包

3分钟倾家荡产?年入千亿“精神鸦片”,正精准掏空中国人的钱包

潋滟晴方DAY
2026-05-13 01:49:48
秦始皇子孙后代被找到,这四个姓氏都是他的后裔,有你的姓氏吗?

秦始皇子孙后代被找到,这四个姓氏都是他的后裔,有你的姓氏吗?

兴趣知识
2026-05-11 18:04:48
演员热依扎回应暂别演艺圈

演员热依扎回应暂别演艺圈

半岛晨报
2026-05-11 12:49:10
内蒙古赤峰一米线店闪爆2死4伤事故调查报告公布:阀门未完全关闭致液化气泄漏

内蒙古赤峰一米线店闪爆2死4伤事故调查报告公布:阀门未完全关闭致液化气泄漏

澎湃新闻
2026-05-12 11:34:26
道指深夜下挫340点,存储芯片股重挫,闪迪跌超8%,英伟达创新高,美联储降息预期逆转

道指深夜下挫340点,存储芯片股重挫,闪迪跌超8%,英伟达创新高,美联储降息预期逆转

21世纪经济报道
2026-05-12 22:48:16
92岁老中医仍出诊!他的“5不”养生经,简单到人人都能做到

92岁老中医仍出诊!他的“5不”养生经,简单到人人都能做到

神奇故事
2026-05-11 22:38:56
是金子总会发光,已从央视“消失”的李七月,找到了自己的领域

是金子总会发光,已从央视“消失”的李七月,找到了自己的领域

陈意小可爱
2026-05-13 00:51:15
257票通过弹劾!莎拉被逼入绝境?参议院刚传出一声惊天逆转

257票通过弹劾!莎拉被逼入绝境?参议院刚传出一声惊天逆转

领悟看世界
2026-05-13 00:46:17
中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

细说职场
2026-05-10 09:55:02
什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

夜深爱杂谈
2026-05-11 07:41:40
苹果正式宣布,这项重要功能终于开放!

苹果正式宣布,这项重要功能终于开放!

XCiOS俱乐部
2026-05-12 10:13:11
茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

橘子约定
2026-05-12 20:44:04
媒体人:麦基、斯佩尔曼两位大爷态度让人无语,幸亏其他球员争气

媒体人:麦基、斯佩尔曼两位大爷态度让人无语,幸亏其他球员争气

懂球帝
2026-05-12 23:09:04
卡尼萨雷斯:今天的老佛爷让人认不出来,发布会表现糟糕透了

卡尼萨雷斯:今天的老佛爷让人认不出来,发布会表现糟糕透了

懂球帝
2026-05-13 06:39:06
今年将迎“最热夏天”?专家分析

今年将迎“最热夏天”?专家分析

澎湃新闻
2026-05-12 22:37:23
伊朗战事导致“缺油少墨” 知名日本零食厂宣布改用黑白包装

伊朗战事导致“缺油少墨” 知名日本零食厂宣布改用黑白包装

财联社
2026-05-12 00:58:57
山东通报部分农田现黑色液体:为企业处置畜禽粪污时产生的沼液,将继续深入调查,并依法依规严肃处理

山东通报部分农田现黑色液体:为企业处置畜禽粪污时产生的沼液,将继续深入调查,并依法依规严肃处理

大象新闻
2026-05-12 20:46:22
明星卸妆后,辛芷蕾香肠嘴,田曦薇像无眉大侠,曾黎断崖式衰老

明星卸妆后,辛芷蕾香肠嘴,田曦薇像无眉大侠,曾黎断崖式衰老

凡知
2026-05-12 18:15:32
湖人出局!东契奇火速发声:退出国家队,这个夏天我要专心带娃

湖人出局!东契奇火速发声:退出国家队,这个夏天我要专心带娃

仰卧撑FTUer
2026-05-12 16:10:08
2026-05-13 07:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3180006文章数 7350关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

利润再腰斩 京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
健康
家居
公开课
军事航空

艺术要闻

这位女摄影师的航拍风景照片,简直太美了!

干细胞能让人“返老还童”吗

家居要闻

极简主义下的居住场域与空间

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版