网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考

2025-10-07 06:11:39　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】DeepSeek的强化学习GRPO为什么能让大模型「集体顿悟」？港科大、滑铁卢、清华等团队最新研究给出统一解释：在RL中，LLM推理自发分层——先巩固底层「执行」，再探索高层「规划」。基于此，还提出了更强HICRA算法。

众所周知，强化学习（Reinforcement Learning，RL）能提升大语言模型LLM的推理能力。

但没人说清楚：为什么会这样？

最近，香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本，首次揭示：

大模型正在以类人的方式学会推理——通过将高层策略规划与底层程序执行相分离。

论文链接：https://arxiv.org/abs/2509.03646

DeepSeek究竟如何让LLM学会推理？

强化学习（RL）虽已成为提升LLM复杂推理能力的颠覆性技术，但其内在机制始终不甚明朗。

在论文中，DeepSeek研究团队强调了强化学习的重要性：

大模型与强化学习环境交互，自然涌现出反思和重新评估（reflection）之类的行为。

他们给出了两条重要实验线索：「长度缩放效应」（length-scaling）和「顿悟时刻」（aha moment）。

在训练过程中，DeepSeek-R1-Zero的思考时长持续增长，自然而然地学会了用更多的思考时间来解决推理任务，如下图所示。

在强化学习（RL）过程中，DeepSeek-R1-Zero在训练集上的平均响应长度

在DeepSeek-R1-Zero的某个中间版本中，AI出乎意料地进入了「顿悟时刻」。他们认为这是强化学习的「力与美」。

DeepSeek-R1-Zero的中间版本展现了一个有趣的「顿悟时刻」：该模型学会了采用拟人化的方式来表达思考过程

这些现象如此奇特，被多家实验室复现。

为什么呢？为什么强化学习能提升LLM的推理能力？这些问题之前无人明确解释。

这次的研究突破性地揭示：

像「顿悟时刻」这类令人困惑的现象并不是孤立的事件，而是新兴推理层次结构的标志，类似于人类认知中高层次策略规划与低层次程序执行的分隔。

这一次揭示了强化学习推动推理能力提升的核心机制：模型先固化基础执行能力，再自主发展出策略规划能力。

阶段1（底层技能巩固）：以执行tokens（execution tokens）的熵值下降为标志，模型专注于巩固低级技能（如算术计算、格式规范）。

阶段2（高层规划探索）：学习重心转向高级规划，以规划tokens（planning tokens）的语义多样性提升为特征，模型持续增强推理能力并出现长度缩放效应（length scaling）。

图1：（左图）大语言模型的推理过程呈现出类人的层次化推理结构：高层策略规划与底层程序执行。（右图）在强化学习训练中，层次化推理通过两阶段动态过程涌现

研究者通过区分两类token验证这种转变：执行token对应具体操作步骤，规划token则体现为「尝试其他方法」等策略性表达。

他们发现，当模型掌握执行token后，规划token的多样性显著增加，这与推理能力提升及解决方案链条延长直接相关。

基于此，团队提出分层感知信用分配机制（HICRA）。

与传统均匀分配学习权重不同，HICRA重点强化规划token的学习权重，从而加速模型探索和巩固策略的能力。

实验表明，HICRA始终优于主流GRPO方法，且在模型已具备扎实执行技能时效果最佳——若执行基础薄弱，HICRA的优势则难以发挥。

这项研究的核心启示在于：推理能力的真正突破源于规划能力的提升，而非仅仅优化执行细节。

强化学习增强推理的两阶段动力学

实验分析表明，经强化学习训练的大语言模型并非整体性提升，而是遵循一种"性能瓶颈"随时间转移的两阶段学习动态。

第一阶段：锻造可靠程序引擎

初期，模型专注于掌握基础能力。它学习可靠地执行低级操作步骤，如格式规范、算术运算和变量替换。

这一阶段体现为「执行token」的不确定性（困惑度及token熵）急剧下降。

RL训练动力学：执行token的熵（图中灰色线）下降，而规划token的语义熵（图中红色线）上升

研究者追踪了代表性模型家族的训练动态曲线。

上图前两列显示，模型初始聚焦于程序巩固阶段，表现为执行token的模型困惑度（更高置信度）和token熵（更确定性）急剧下降。

随后发生向策略规划探索的转变（第三列），规划策略的多样性（语义熵）在Qwen模型上持续增长，或在Llama模型上出现拐点后增长，这与准确率持续提升及推理链延长（第四列）密切相关。

对于强模型或易学习数据，此阶段可能短暂甚至不存在，因为模型已具备可靠的基础低级技能，通常仅需对格式token进行最小调整。

第二阶段：掌握高级策略规划

当模型在低级技能上奠定坚实基础后，学习前沿发生转移。性能提升转为由探索和掌握高级策略驱动——例如选择新方法、回溯或识别关键定理。

通过测量规划token的语义熵，这次研究验证了这一转变。其中的语义熵用于反映模型高级策略计划的多样性。

规划token的语义熵（红线，第三列）从开始或拐点处持续上升，这种增长与推理准确率提升和长度缩放效应同步发生。

这表明策略正在主动扩展其策略计划库，以实现推理能力的持续提升。这与程序巩固阶段token级熵的急剧下降形成鲜明对比。

揭秘「神秘的现象」

这次的分层框架为强化学习训练中一些长期让人困惑的现象，提供了统一而清晰的解释：

1、「顿悟时刻」并非偶然灵光。

这类转折并不是随机爆发的才思，而是某种行为特征信号：模型在「发现—掌握—强化」某种强力的高层策略（如自我反思）

当策略被纳入并稳定执行时，模型的表现会出现突跃式改善。

2、「长度缩放」源于更好的规划。

随着模型探索到更丰富、更精细的策略（包括分类讨论、预先规划、回溯等），它自然会生成更长、更有结构的推理链条；而这类更长的输出，往往意味着更高的成功率与更好的表现。

换言之，「输出越长越准」的现象，本质是高层规划能力增强的外在体现。

3、复杂的「熵」变化，其实并不神秘。

整体的token级熵常见下降，并非模型「变笨」，而是因为数量庞大的执行类词元（格式、算术、替换等）在训练中变得高度可预测，把总体曲线往下拉。

真正反映策略探索进展的，是高层规划词元的语义熵：它随训练逐步上升，准确刻画出模型在发明与扩充策略谱系方面的探索步伐。

归结起来：第一阶段通过降低执行不确定性「打好基本功」，第二阶段通过提升规划多样性「把思路打开」。这些看似各自为政的现象，其实都出自同一套分层学习动力学。

这一发现揭示了当前RL方法（如GRPO）的核心低效问题：

它们对所有token施加无差别优化压力，稀释了学习信号。

既然高级推理的关键在于掌握策略，为何还要在已掌握的程序性步骤上浪费精力？

为解决此问题，研究者提出了一种新算法HICRA（Hierarchy-Aware Credit Assignment，分层感知信用分配），其核心设计理念是：

将模型的学习能力聚焦于稀疏但高价值的规划token。

分层感知信用分配

聚焦关键要素

通过放大策略举措的学习信号，HICRA加速了有效推理模式的发现与强化进程。

实验结果，效果惊人：定向优化规划全赢了！

在多个纯文本及视觉语言模型中，HICRA不断超越强大的GRPO基线方法，显著验证了定向优化规划token的有效性。

表1：在多项数学推理基准测试中，HICRA、GRPO与基座模型的性能对比。

表2：在多模态推理基准测试中，HICRA与GRPO的性能对比

为探究强化学习最有效的应用方向，这次分析了失败推演中错误类型的演变规律。

首先通过人工审查失败案例，归纳出四种不同的错误成因。

随后使用GPT-4o通过多选题形式将每个失败案例归类到对应成因，最后将这些分类解析为两大范畴：「规划与策略」（如逻辑缺陷、高层计划错误）和「其他错误」（如计算失误、事实检索错误）。

分析表明，强化学习（RL）的主要优势在于修正高层策略失误，而非细微的计算错误。

这也激发了HICRA的设计理念，即将学习重点集中在规划token上。

如下图5所示，HICRA的成功与其维持比GRPO更高的语义熵水平密切相关。

这种高层策略的更高多样性，直接与更强且更稳定的验证准确率相关联，证实了专注的策略探索是推理能力改进的主要驱动力。

何种指标能有效追踪策略探索？

准确衡量策略探索，对于诊断策略学习至关重要。

然而，这次发现诸如token级熵值等常用指标可能产生误导。

1、token级熵值的缺陷：该指标有时会收敛至较低水平，被实践者误判为「崩溃」。但这是错误的。

大量低层执行token主导了token级熵值，而这些token本身就会趋于可预测化（即低熵状态）。低层token的熵值下降，会拉低全局平均熵值，但这并不意味探索停止。相反，只要语义熵保持高位，就说明模型正在积极探索新高阶策略，且性能持续提升。

2、Pass@K指标的盲点：该通过K次尝试成功率衡量的指标，有时会饱和（例如所有查询都可能被解决），导致无法区分方法优劣或追踪训练后期的持续学习动态。

语义熵有效规避了这些缺陷。它直接衡量有意义策略方案的多样性。

如下图所示，语义熵始终保持强大区分力：当token熵值崩溃且Pass@8饱和时，仍能清晰显示HICRA持续的策略探索优势。这使其成为追踪真正推理发展的可靠指南。

token熵值（最右）崩溃且Pass@8（右二）饱和失效时，语义熵（最左）仍明确显示HICRA的持续探索优势，该优势与最终准确率提升正相关。

现有研究提出使用高熵的「分岔token」作为模型推理过程中决策点的代理指标。

链接：https://arxiv.org/abs/2506.01939

这类基于熵的token与基于功能定义的规划token之间，到底什么关系？

研究发现关键不对称性：

虽然大部分规划token确实呈现高熵特性（符合策略选择的预期），但反向关系并不成立。

大多数高熵token并非规划token，它们往往对应表述方式的简单变异或不影响整体策略的低层计算。

这揭示了仅依靠熵值识别具有精确语义功能token的局限性。

虽然功能定义的规划token大多具有高熵特性（下图左），但高熵token并非规划token的有效代理指标，因其多数承担其他功能（下图右）。

参考资料：

https://arxiv.org/abs/2509.03646

https://www.rohan-paul.com/p/new-paper-shows-why-reasoning-improves

https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

AGILE：自监督+交互式强化学习助力VLMs感知与推理全面提升

机器之心Pro 2025-10-20 18:30:03
0 跟贴 0
突破多模态奖励瓶颈！R1-Reward用强化学习赋予模型长期推理能力

量子位 2025-05-08 17:47:02
0 跟贴 0

强化学习的两个「大坑」，终于被两篇ICLR论文给解决了

机器之心Pro 2025-07-17 18:17:19
0 跟贴 0

ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗？

机器之心Pro 2025-07-24 16:14:06
0 跟贴 0
DeepMind一篇论文终结十年之争！GPT-5推理靠世界模型

新智元 2025-10-31 12:47:54
10 跟贴 10

以判别式监督学习强化推理LLM，解决难度偏差和熵崩塌难题

机器之心Pro 2025-10-28 11:14:55
0 跟贴 0

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

钛媒体APP 2025-11-01 18:21:14
0 跟贴 0
消失的Ilya，被马斯克和OpenAI逼进法庭

新智元 2025-11-01 19:34:41
3 跟贴 3

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

量子位 2025-06-13 17:03:41
0 跟贴 0
智源研究院王仲远：世界模型的关键是真正预测下一个状态

经济观察报 2025-11-01 18:54:14
1 跟贴 1
OpenAI启动新实验，46万学生参与

新智元 2025-11-01 19:36:31
0 跟贴 0
开源模型新王MinimaxM2，8%的价格两倍的速度

量子位 2025-10-30 07:01:54
0 跟贴 0
一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0
这一个Tab键，我愿意单独付费：Cursor在线强化学习优化代码建议

机器之心Pro 2025-09-15 10:35:28
14 跟贴 14
港科提出新算法革新大模型推理范式：随机策略估值竟成「神操作」

机器之心Pro 2025-10-31 15:40:39
0 跟贴 0
“半夜吓得一激灵！”网友反映iPhone半夜会自动拨号给陌生人，怎么回事？

都市快报橙柿互动 2025-10-31 15:48:31
17883 跟贴 17883
啵啵填充最明显改变是什么？张敬花案例：圆脸秒变精致小V脸！

整形医生张敬花 2025-10-28 15:34:20
6 跟贴 6
刚亮完核杀器俄罗斯"末日电台"发出6字神秘信号

参考消息网 2025-11-01 03:15:56
10628 跟贴 10628
西安高新第一中学发布郑重声明！

大风新闻 2025-11-01 10:36:07
497 跟贴 497
已获批复！四川又一超级水利工程来了！

极目新闻 2025-11-01 10:47:06
73 跟贴 73
媒体：辽宁、吉林、黑龙江、内蒙古共同打造“东北超”

澎湃新闻 2025-11-01 15:54:00
668 跟贴 668
港科大（广州）牵头完成语言服务大语言模型（1.0）

南方都市报 2025-10-30 17:30:07
0 跟贴 0
Kimi开源新线性注意力架构，首次超越全注意力模型，推理加速6倍

量子位 2025-10-31 16:46:04
0 跟贴 0
蝉联香港就业能力第一！11月23日，港科大首席副校长亲授“上岸”秘诀

星岛记事 2025-10-29 20:32:19
0 跟贴 0
韦达定理的推导过程，一定要非常熟练！

大鹏老师讲数学 2025-11-01 05:06:00
0 跟贴 0
卡帕西访谈：强化学习很糟糕，但其它方法更糟

量子位 2025-10-21 07:38:28
0 跟贴 0
【抛弃传统量化】强化学习实战：手搓PPO算法，用PPO算法实现A股智能交易！强化学习入门 | 强化

卢菁老师 2025-10-29 02:35:13
0 跟贴 0
突然爆火！青岛街头，一大群人裹着羽绒服排长队，就为了买它！网友：足足排了4个小时，高低要尝尝什么味儿

环球网资讯 2025-11-01 14:24:07
758 跟贴 758
部分高校职称晋升现“金钱游戏”

红星新闻 2025-10-31 21:35:21
3292 跟贴 3292
官宣将播！6部新剧强势来袭，新闻女王2回归，大家想追哪部？

好叫好伐 2025-11-01 18:18:38
0 跟贴 0
杨国福麻辣烫回应“1斤豆芽卖28元”

大象新闻 2025-11-01 18:26:07
1548 跟贴 1548
哥德尔：世界的意义在于事与愿违

尚曦读史 2025-10-29 08:49:06
0 跟贴 0
牛弹琴：英国"动真格"了王子被"大义灭亲"剥夺头衔

上游新闻 2025-11-01 09:22:22
778 跟贴 778
初中数学：将军饮马模型求线段的最和的最小值问题1

数学教研组长朱老师 2025-10-28 12:23:00
0 跟贴 0
内存直降50%，token需求少56%！用视觉方式处理长文本

新智元 2025-11-01 09:07:33
0 跟贴 0
从1800万到6000万：顶级翡翠升值逻辑与普通人选购智慧

一窥究竟 2025-10-31 11:51:11
0 跟贴 0
案例简答题预测2（电动自行车停放充电）

胜利老师讲一消 2025-10-30 14:55:02
1 跟贴 1
今日交通案例快刷

考拉动物圆 2025-11-01 11:22:34
0 跟贴 0
传承千年的汉字存在缺陷？诺贝尔奖获得者称：汉字有三大致命缺点

回京历史梦 2025-11-01 14:06:03
1 跟贴 1
养花人的天塌了！工业废土伪装成养花土被曝光，自制营养土成潮流

环球网资讯 2025-11-01 12:11:29
304 跟贴 304

美军已算好，只要开打，中国一次造50艘航母，美国还有明白人

美军已算好，只要开打，中国一次造50艘航母，美国还有明白人

林子说事

2025-11-01 15:58:46

现场验货很成功，安德森vs曼联：3次关键传球+14次夺回球权

现场验货很成功，安德森vs曼联：3次关键传球+14次夺回球权

懂球帝

2025-11-02 03:13:10

曾被吹上天，如今却跌落神坛的4个国产运动鞋，你穿过哪些？

曾被吹上天，如今却跌落神坛的4个国产运动鞋，你穿过哪些？

诗意世界

2025-08-15 14:26:52

砸马犬男子被曝不是浙农大学生，他女朋友也已经毕业多年

砸马犬男子被曝不是浙农大学生，他女朋友也已经毕业多年

映射生活的身影

2025-11-01 22:51:35

扎尼奥洛近4场意甲打进3球，超上赛季且等同于此前49场进球数

扎尼奥洛近4场意甲打进3球，超上赛季且等同于此前49场进球数

懂球帝

2025-11-02 01:58:25

32岁杨紫陪父母和家人相聚，杨紫父亲低调随和，杨紫母亲状态年轻

32岁杨紫陪父母和家人相聚，杨紫父亲低调随和，杨紫母亲状态年轻

乡野小珥

2025-11-02 04:01:32

王菲女儿李嫣换头成功！18年天价费用修复兔唇，真堪比换头

王菲女儿李嫣换头成功！18年天价费用修复兔唇，真堪比换头

一盅情怀

2025-07-16 19:22:12

耻辱的0-3！英超中资队开局10轮不胜+垫底，57岁海港功勋下课在即

耻辱的0-3！英超中资队开局10轮不胜+垫底，57岁海港功勋下课在即

我爱英超

2025-11-02 01:04:03

医生忠告：吃完降压药千万别碰这3样食物，患者要牢记，不能大意

医生忠告：吃完降压药千万别碰这3样食物，患者要牢记，不能大意

今日养生之道

2025-10-23 08:08:38

莱昂纳德生涯第三次压哨绝杀！赛后谈细节：一直跟着琼斯移动路线

莱昂纳德生涯第三次压哨绝杀！赛后谈细节：一直跟着琼斯移动路线

Emily说个球

2025-11-01 13:46:30

带小三产检遇原配后续：曝男子是律师，吃软饭上位，小三也不简单

带小三产检遇原配后续：曝男子是律师，吃软饭上位，小三也不简单

银河史记

2025-11-01 21:13:54

全红婵也没想到！央视专访这次，陈芋汐仅一句话就让自己口碑暴涨

全红婵也没想到！央视专访这次，陈芋汐仅一句话就让自己口碑暴涨

科学发掘

2025-11-01 14:56:49

美女打屁股大赛，火了

微微热评

2025-10-08 22:10:24

俄军大捷！攻占罗金西克：乌军不顾死守红军城命令，开始自发撤退

俄军大捷！攻占罗金西克：乌军不顾死守红军城命令，开始自发撤退

牛马搞笑

2025-11-02 04:35:46

从断网到断声：塔利班正在把阿富汗变成一座巨大的笼子

从断网到断声：塔利班正在把阿富汗变成一座巨大的笼子

西域都护

2025-10-03 15:15:59

内蒙“女色虎”落马，靠陪睡高官上位，大肆敛财为了整容

内蒙“女色虎”落马，靠陪睡高官上位，大肆敛财为了整容

文史旺旺旺

2024-10-31 12:26:20

40岁C罗获评8.2分+MVP：无敌反越位破门+读秒点射绝杀，太牛了

40岁C罗获评8.2分+MVP：无敌反越位破门+读秒点射绝杀，太牛了

侧身凌空斩

2025-11-02 04:01:54

广东降温后，竟是全球17级风王。

广东降温后，竟是全球17级风王。

天气观察站

2025-11-02 05:39:00

反华总统国家面临亡国，妄想向中国请求援助，最终结果是什么？

反华总统国家面临亡国，妄想向中国请求援助，最终结果是什么？

混沌录

2025-10-11 22:32:05

为什么电影里很多黑帮老大坚决不做毒品生意？网友评论引万千共鸣

为什么电影里很多黑帮老大坚决不做毒品生意？网友评论引万千共鸣

小椰的奶奶

2025-10-27 02:51:34

AI产业主平台领航智能+时代

13761文章数 66236关注度

往期回顾全部

科技要闻

事关安世半导体，商务部最新发声！

头条要闻

美国防长国务卿受威胁躲进军事基地

头条要闻

美国防长国务卿受威胁躲进军事基地

体育要闻

NBA球员，必须吃夜宵

娱乐要闻

王家卫这波录音，撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票！本人回应

汽车要闻

换新一口价11.98万第三代蓝电E5 PLUS开启预售

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

亲子

教育

本地

公开课

房产要闻

实力破圈！这个豪宅交付，正在定义海口品质样本！

亲子要闻

父母对孩子的爱，孩子能感受领域感激，不接受的只是方法

教育要闻

2026高考报名，这八处变化一定要了解！

本地新闻

全网围观，到底多少人被这个野人大学生笑疯了

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版