网易首页 > 网易号 > 正文 申请入驻

拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升

0
分享至

大语言模型在RLVR训练中面临的“熵困境”,有解了!

2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。这些进展很大程度上得益于一种名为RLVR (基于可验证奖励的强化学习)的方法。

该方法通过数学验证、单元测试等可自动判断对错的方式提供训练信号,替代了传统依赖人类评判的流程,使模型能够进行大规模、高效率的自我改进。

然而,RLVR在实践中始终面临“探索机制极易失衡”这一关键瓶颈——要么探索受限,陷入熵崩塌;要么探索失控,引发熵爆炸。

为突破这一瓶颈,来自上海人工智能实验室和复旦大学等机构的研究团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。

实验证明,该方法不仅在多项数学推理基准上取得了显著性能提升,更重要的是,它让模型的探索过程变得更加高效与可控。



下面详细来看——

核心困境:探索的“两难陷阱”

在RLVR训练中,研究人员期望模型能够持续探索多样化的解题路径,以避免过早陷入局部最优。

一个自然的想法是:引入熵正则化(entropy regularization)。

这是强化学习中鼓励探索的经典手段。其核心思想很简单:在优化目标中加入一项,鼓励模型在每一步生成时保持一定的“不确定性”,不要过早把概率全压在少数几个词上。

具体来说,就是计算每一步输出分布的熵(衡量“混乱程度”),再把整条推理轨迹的平均熵加到训练目标里,用一个系数控制探索强度。

以下公式分别为:熵的计算公式及熵正则的优化目标。





然而,这一策略在大型推理模型(LRM)的复杂场景下却极易走向两个极端:

  • 探索受限(熵崩塌)

当太小,熵项几乎不起作用,模型迅速退化为近似确定性策略。平均熵迅速收敛,即发生熵崩塌。几轮训练后,所有回答都高度相似,陷入“舒适区”。这种熵崩塌现象不仅扼杀了模型的多样性,也使其推理能力在训练早期就触及天花板,无法充分释放潜力。

  • 探索失控(熵爆炸)

反之,当稍大,模型便极易在庞大的动作空间(数十万个token)与超长的推理轨迹(上千步生成)中失控。根据熵的定义,当概率分布越“平”,熵就越高。而在如此庞大的词表中,哪怕只把一点点概率质量从高义词(如“因此”)挪到无意义词(如“<”“#@$%”),也能带来显著的熵增。

更糟的是,在自回归生成中,这种不确定性会沿着轨迹逐步累积——早期几步的微小混乱,会迅速放大为整条推理链的失控。最终使得模型为了“拉高熵”,在每个位置、对每个token都分配一点概率,导致生成内容充斥无意义符号,逻辑断裂、语义崩坏——这就是典型的熵爆炸(entropy explosion)。

传统方法会失效的根本原因在于:熵正则化的激励是“无差别”的——它假设所有token、所有位置都同等值得探索。但LRM的生成过程具有鲜明的结构性:

  • 在每个生成步骤上,仅有概率排名靠前的少数token具备语义合理性,其余绝大多数token概率趋近于零且无实际意义;
  • 在整个生成序列中,仅有少数承担逻辑枢纽作用的关键词(如逻辑连接词、变量名、结论引导词)真正影响推理走向,而大量用于句法填充的常规词则应保持高确定性,以维持推理连贯性。

正因忽略了这种“探索价值的非均匀分布”,传统熵正则化不仅难以有效引导探索,反而容易引发训练不稳定,甚至背离提升推理能力的初衷。

下图表明,训练前模型的概率分布高度集中,且只有少量位置在逻辑上关键,值得探索;过度探索后概率被摊薄,生成内容混乱。



破局之道:为探索装上“精准导航”

针对传统方法的不足,研究人员提出选择性熵正则化方法(SIREN),通过结构化约束实现探索过程的精细调控。SIREN包含三个核心机制:

1、划定探索范围(Top-p掩码, Top-P Mask)

在每个生成步骤中,将熵的计算范围严格限定于概率最高的核心token集合,确保探索仅在语义合理的候选词中进行,避免无效探索。

2、识别关键决策点(峰值熵掩码,Peak-entropy Mask)

自动识别生成序列中熵值显著高于平均水平的逻辑关键词(如推理连接词、假设引导词等),并将探索激励集中作用于这些关键位置。

3、稳定训练过程(自锚定正则化, Self-anchored Regularization)

将熵值目标从最大化调整为维持合理区间,通过动态锚定机制使探索强度始终处于可控范围,避免训练失稳。

这一方法首次在RLVR框架中实现了对探索范围、位置和强度的三重精准控制,为大规模推理模型的稳定训练提供了可靠解决方案。

下图为SIREN的方法流程:



实验验证:有效探索促进性能提升

实验结果显示,SIREN在不同模型和数据集上均取得显著提升。

以下为SIREN在Qwen2.5-Math-7B上的实验结果:



以及SIREN在其他基座模型上的实验结果:



上述结果表明:

  • 在Qwen2.5-Math-7B上,SIREN平均maj@k达54.6%,超越最强基线4.8%
  • 在最具挑战的AIME24/25上,提升均达6.6%
  • 在1.5B到8B不同规模、不同基座的模型上均稳定有效。

那么,这些性能提升从何而来?

分析表明,这正是有效探索带来的根本性改变。与传统的熵正则方法相比,SIREN展现出更合理有效的探索模式。

下图中,SIREN展现出较高的pass@k,探索边界显著扩展:



还能避免困惑度坍缩,SIREN将答案多样性保持良好:



下图表明,先加大探索再缓慢收敛,训练过程平稳可控:



小结

这项研究致力于解决大语言模型在RLVR训练中面临的策略探索难题

通过系统的实证分析,研究人员发现传统的探索机制在大规模动作空间和长序列生成中极易失衡,导致模型陷入熵崩塌和熵爆炸的困境。

为突破这一瓶颈,团队提出了选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。实验证明,该方法不仅在多项数学推理基准上取得了显著性能提升,更重要的是,它让模型的探索过程变得更加高效与可控。

团队表示,展望未来,随着强化学习成为大模型后训练的主流方法,如何实现稳定、可控、高效的探索,将成为释放大模型潜力、突破性能瓶颈的核心议题。该研究提出的选择性探索调控机制,为探索的精细化提供了一种可行的解决方案。

团队期待这项工作能为下一代推理模型的训练范式提供启发,推动大模型在数学、代码、科学推理等复杂任务以及其他更广阔的应用领域走得更远。

论文链接:https://arxiv.org/abs/2509.25133
项目主页:https://github.com/Linn3a/siren

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
21兵团司令降为军长,55年又被拟授少将,伟人大怒:少将改上将

21兵团司令降为军长,55年又被拟授少将,伟人大怒:少将改上将

浩渺青史
2026-01-29 19:36:52
怒轰20米世界波!25岁安东尼杀疯:15分钟造2球 1年14球全欧第2人

怒轰20米世界波!25岁安东尼杀疯:15分钟造2球 1年14球全欧第2人

风过乡
2026-01-30 06:38:02
大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

大S雕像圆满落成,具俊晔设计了9个台阶,5块方形石头,深藏爱意

娱乐团长
2026-01-28 20:30:38
五代十国傻傻的分不清?带你理清五代皇帝,搞懂54年的五代历史

五代十国傻傻的分不清?带你理清五代皇帝,搞懂54年的五代历史

长风文史
2025-12-25 10:40:12
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
出大事了?中国突然收到“求救”信号,外交部火速回应,信号强烈

出大事了?中国突然收到“求救”信号,外交部火速回应,信号强烈

三毛看世界
2026-01-29 14:54:57
“你我贷”为催收把采访电话都爆了 催收员怼警察:“爆通讯录怎么了?”

“你我贷”为催收把采访电话都爆了 催收员怼警察:“爆通讯录怎么了?”

信网
2026-01-29 15:13:20
球迷批乌克兰名将演戏:咋不把600万奖金捐给祖国母亲 有种去当兵

球迷批乌克兰名将演戏:咋不把600万奖金捐给祖国母亲 有种去当兵

风过乡
2026-01-30 07:42:37
欧冠0-3完败后仅1天!德泽比尔主动辞职,穆里尼奥让马赛损失惨重

欧冠0-3完败后仅1天!德泽比尔主动辞职,穆里尼奥让马赛损失惨重

篮球看比赛
2026-01-30 13:09:04
警惕!尼帕病毒杀疯了!紧急喊停3种饭,提前做好4件事能救命

警惕!尼帕病毒杀疯了!紧急喊停3种饭,提前做好4件事能救命

现代小青青慕慕
2026-01-29 14:16:18
43岁香港过气艳星官宣生子!嫁山东农村小伙,提前俩月回香港生娃

43岁香港过气艳星官宣生子!嫁山东农村小伙,提前俩月回香港生娃

嫹笔牂牂
2026-01-30 07:31:14
一嫁日本,二嫁美国,三嫁法国,绝不嫁中国人的李勤勤,咋样了?

一嫁日本,二嫁美国,三嫁法国,绝不嫁中国人的李勤勤,咋样了?

心灵的触动a
2026-01-30 00:04:59
谈崩了,哈梅内伊很紧张!!!

谈崩了,哈梅内伊很紧张!!!

山河路口
2026-01-29 19:17:53
3-2爆冷张本美和!21岁陈熠决胜局发威,国乒新锐扛外战大旗

3-2爆冷张本美和!21岁陈熠决胜局发威,国乒新锐扛外战大旗

卿子书
2026-01-30 08:28:07
澳网:德约科维奇大战辛纳 混双决出首冠

澳网:德约科维奇大战辛纳 混双决出首冠

大眼瞄世界
2026-01-30 10:33:23
玩家抱怨《生化危机9》格蕾丝不够性感 将角色巨乳化

玩家抱怨《生化危机9》格蕾丝不够性感 将角色巨乳化

3DM游戏
2026-01-30 09:11:41
今天,A股突然跳水,迹象很明显,做好准备了,A股很可能这样走

今天,A股突然跳水,迹象很明显,做好准备了,A股很可能这样走

深析古今
2026-01-30 11:15:11
黑店靠谱!约克雷斯在阿森纳效率一般,“接班人”却打出火爆状态

黑店靠谱!约克雷斯在阿森纳效率一般,“接班人”却打出火爆状态

里芃芃体育
2026-01-30 07:46:03
郑州失联6天女孩已死亡!哥哥悲痛发声 原因曝光,知情人透露更多

郑州失联6天女孩已死亡!哥哥悲痛发声 原因曝光,知情人透露更多

行走的知识库
2026-01-29 13:30:15
2026-01-30 13:47:03
量子位 incentive-icons
量子位
追踪人工智能动态
12084文章数 176368关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

美驻华大使挑事:中方出口管制措施不合规

头条要闻

美驻华大使挑事:中方出口管制措施不合规

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

数码
教育
家居
健康
公开课

数码要闻

最高省4000元!华为开启春节感恩回馈季活动,覆盖手机手表平板多品类

教育要闻

9科全!2026山东济南德州枣庄青岛等地高三期末试题+答案下载!

家居要闻

蓝调空舍 自由与个性

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版