网易首页 > 网易号 > 正文 申请入驻

拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升

0
分享至

大语言模型在RLVR训练中面临的“熵困境”,有解了!

2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。这些进展很大程度上得益于一种名为RLVR (基于可验证奖励的强化学习)的方法。

该方法通过数学验证、单元测试等可自动判断对错的方式提供训练信号,替代了传统依赖人类评判的流程,使模型能够进行大规模、高效率的自我改进。

然而,RLVR在实践中始终面临“探索机制极易失衡”这一关键瓶颈——要么探索受限,陷入熵崩塌;要么探索失控,引发熵爆炸。

为突破这一瓶颈,来自上海人工智能实验室和复旦大学等机构的研究团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。

实验证明,该方法不仅在多项数学推理基准上取得了显著性能提升,更重要的是,它让模型的探索过程变得更加高效与可控。



下面详细来看——

核心困境:探索的“两难陷阱”

在RLVR训练中,研究人员期望模型能够持续探索多样化的解题路径,以避免过早陷入局部最优。

一个自然的想法是:引入熵正则化(entropy regularization)。

这是强化学习中鼓励探索的经典手段。其核心思想很简单:在优化目标中加入一项,鼓励模型在每一步生成时保持一定的“不确定性”,不要过早把概率全压在少数几个词上。

具体来说,就是计算每一步输出分布的熵(衡量“混乱程度”),再把整条推理轨迹的平均熵加到训练目标里,用一个系数控制探索强度。

以下公式分别为:熵的计算公式及熵正则的优化目标。





然而,这一策略在大型推理模型(LRM)的复杂场景下却极易走向两个极端:

  • 探索受限(熵崩塌)

当太小,熵项几乎不起作用,模型迅速退化为近似确定性策略。平均熵迅速收敛,即发生熵崩塌。几轮训练后,所有回答都高度相似,陷入“舒适区”。这种熵崩塌现象不仅扼杀了模型的多样性,也使其推理能力在训练早期就触及天花板,无法充分释放潜力。

  • 探索失控(熵爆炸)

反之,当稍大,模型便极易在庞大的动作空间(数十万个token)与超长的推理轨迹(上千步生成)中失控。根据熵的定义,当概率分布越“平”,熵就越高。而在如此庞大的词表中,哪怕只把一点点概率质量从高义词(如“因此”)挪到无意义词(如“<”“#@$%”),也能带来显著的熵增。

更糟的是,在自回归生成中,这种不确定性会沿着轨迹逐步累积——早期几步的微小混乱,会迅速放大为整条推理链的失控。最终使得模型为了“拉高熵”,在每个位置、对每个token都分配一点概率,导致生成内容充斥无意义符号,逻辑断裂、语义崩坏——这就是典型的熵爆炸(entropy explosion)。

传统方法会失效的根本原因在于:熵正则化的激励是“无差别”的——它假设所有token、所有位置都同等值得探索。但LRM的生成过程具有鲜明的结构性:

  • 在每个生成步骤上,仅有概率排名靠前的少数token具备语义合理性,其余绝大多数token概率趋近于零且无实际意义;
  • 在整个生成序列中,仅有少数承担逻辑枢纽作用的关键词(如逻辑连接词、变量名、结论引导词)真正影响推理走向,而大量用于句法填充的常规词则应保持高确定性,以维持推理连贯性。

正因忽略了这种“探索价值的非均匀分布”,传统熵正则化不仅难以有效引导探索,反而容易引发训练不稳定,甚至背离提升推理能力的初衷。

下图表明,训练前模型的概率分布高度集中,且只有少量位置在逻辑上关键,值得探索;过度探索后概率被摊薄,生成内容混乱。



破局之道:为探索装上“精准导航”

针对传统方法的不足,研究人员提出选择性熵正则化方法(SIREN),通过结构化约束实现探索过程的精细调控。SIREN包含三个核心机制:

1、划定探索范围(Top-p掩码, Top-P Mask)

在每个生成步骤中,将熵的计算范围严格限定于概率最高的核心token集合,确保探索仅在语义合理的候选词中进行,避免无效探索。

2、识别关键决策点(峰值熵掩码,Peak-entropy Mask)

自动识别生成序列中熵值显著高于平均水平的逻辑关键词(如推理连接词、假设引导词等),并将探索激励集中作用于这些关键位置。

3、稳定训练过程(自锚定正则化, Self-anchored Regularization)

将熵值目标从最大化调整为维持合理区间,通过动态锚定机制使探索强度始终处于可控范围,避免训练失稳。

这一方法首次在RLVR框架中实现了对探索范围、位置和强度的三重精准控制,为大规模推理模型的稳定训练提供了可靠解决方案。

下图为SIREN的方法流程:



实验验证:有效探索促进性能提升

实验结果显示,SIREN在不同模型和数据集上均取得显著提升。

以下为SIREN在Qwen2.5-Math-7B上的实验结果:



以及SIREN在其他基座模型上的实验结果:



上述结果表明:

  • 在Qwen2.5-Math-7B上,SIREN平均maj@k达54.6%,超越最强基线4.8%
  • 在最具挑战的AIME24/25上,提升均达6.6%
  • 在1.5B到8B不同规模、不同基座的模型上均稳定有效。

那么,这些性能提升从何而来?

分析表明,这正是有效探索带来的根本性改变。与传统的熵正则方法相比,SIREN展现出更合理有效的探索模式。

下图中,SIREN展现出较高的pass@k,探索边界显著扩展:



还能避免困惑度坍缩,SIREN将答案多样性保持良好:



下图表明,先加大探索再缓慢收敛,训练过程平稳可控:



小结

这项研究致力于解决大语言模型在RLVR训练中面临的策略探索难题

通过系统的实证分析,研究人员发现传统的探索机制在大规模动作空间和长序列生成中极易失衡,导致模型陷入熵崩塌和熵爆炸的困境。

为突破这一瓶颈,团队提出了选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。实验证明,该方法不仅在多项数学推理基准上取得了显著性能提升,更重要的是,它让模型的探索过程变得更加高效与可控。

团队表示,展望未来,随着强化学习成为大模型后训练的主流方法,如何实现稳定、可控、高效的探索,将成为释放大模型潜力、突破性能瓶颈的核心议题。该研究提出的选择性探索调控机制,为探索的精细化提供了一种可行的解决方案。

团队期待这项工作能为下一代推理模型的训练范式提供启发,推动大模型在数学、代码、科学推理等复杂任务以及其他更广阔的应用领域走得更远。

论文链接:https://arxiv.org/abs/2509.25133
项目主页:https://github.com/Linn3a/siren

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

抽象派大师
2026-01-26 19:07:26
男子千里送发动机后续:警方介入,正脸曝光 , 知情人爆更多内幕

男子千里送发动机后续:警方介入,正脸曝光 , 知情人爆更多内幕

丁丁鲤史纪
2026-01-28 10:06:08
世界最顶级的豪宅,或许,就在广州!

世界最顶级的豪宅,或许,就在广州!

广州房产
2026-01-28 09:45:16
张雨绮,至今一言不发

张雨绮,至今一言不发

新民周刊
2026-01-28 19:42:48
联合国掀桌!400岗迁出纽约,硬刚美国霸权

联合国掀桌!400岗迁出纽约,硬刚美国霸权

小噎论事
2026-01-27 19:01:46
“网红小胖”:曾参演《爱情公寓》等电视剧,如今已结婚生子,回归正常家庭生活

“网红小胖”:曾参演《爱情公寓》等电视剧,如今已结婚生子,回归正常家庭生活

大风新闻
2026-01-27 10:52:13
全国千亿县大扩容,多地晋级GDP千亿县行列

全国千亿县大扩容,多地晋级GDP千亿县行列

第一财经资讯
2026-01-28 19:53:13
0-2爆冷!澳网乱套了,4号种子出局,王欣瑜太可惜,4强对阵曝光

0-2爆冷!澳网乱套了,4号种子出局,王欣瑜太可惜,4强对阵曝光

体育就你秀
2026-01-28 12:43:12
拿600万,0分2板3犯规,登场10分钟输19分!球迷:CBA第一诈骗犯

拿600万,0分2板3犯规,登场10分钟输19分!球迷:CBA第一诈骗犯

弄月公子
2026-01-28 22:05:48
戴笠一生犯下最大的三个错:睡错一人,信错一人,杀错一人

戴笠一生犯下最大的三个错:睡错一人,信错一人,杀错一人

抽象派大师
2026-01-21 05:51:57
加州先跳,“加拿大进口中国电车,一整个期待住了”

加州先跳,“加拿大进口中国电车,一整个期待住了”

观察者网
2026-01-28 11:39:16
毛主席逝世后,邓小平优待贺子珍,贺子珍:没想到组织上还记得我

毛主席逝世后,邓小平优待贺子珍,贺子珍:没想到组织上还记得我

明月清风阁
2026-01-28 08:20:08
今日笑话:公平的蛇

今日笑话:公平的蛇

有趣的火烈鸟
2026-01-27 15:21:28
澳网男单四强出炉:TOP4包圆,辛纳领跑,德约仍有机会

澳网男单四强出炉:TOP4包圆,辛纳领跑,德约仍有机会

格斗联盟
2026-01-28 20:03:34
“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

行者马生的笔记
2026-01-27 21:15:41
没有了!没有锡安了!七年7500万结束了!

没有了!没有锡安了!七年7500万结束了!

篮球盛世
2026-01-26 19:12:40
战机航母全来了,美军春节前或动手?中方已行动,先断特朗普后路

战机航母全来了,美军春节前或动手?中方已行动,先断特朗普后路

比利
2026-01-26 03:14:21
超20家商业航天概念股披露2025年业绩预告 臻镭科技同比最高预增超6倍

超20家商业航天概念股披露2025年业绩预告 臻镭科技同比最高预增超6倍

财联社
2026-01-28 22:26:28
基本金属大涨之际,高盛逆势看空:铜铝需求已现疲态

基本金属大涨之际,高盛逆势看空:铜铝需求已现疲态

华尔街见闻官方
2026-01-28 17:20:54
2026-01-28 23:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12078文章数 176367关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

水贝知名金店出现兑付困难 未兑付的金额已超过百亿元

头条要闻

水贝知名金店出现兑付困难 未兑付的金额已超过百亿元

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

房产
亲子
时尚
艺术
本地

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

亲子要闻

“又是个一米六的男子汉”,宝妈每天喂2块钱米油,孩子天崩开局

想年前用3周“刷新”好状态?做第一点就够

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版