网易首页 > 网易号 > 正文 申请入驻

顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】DeepSeek的强化学习GRPO为什么能让大模型「集体顿悟」?港科大、滑铁卢、清华等团队最新研究给出统一解释:在RL中,LLM推理自发分层——先巩固底层「执行」,再探索高层「规划」。基于此,还提出了更强HICRA算法。

众所周知,强化学习(Reinforcement Learning,RL)能提升大语言模型LLM的推理能力。

但没人说清楚:为什么会这样?

最近,香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本,首次揭示:

大模型正在以类人的方式学会推理——通过将高层策略规划与底层程序执行相分离。


论文链接:https://arxiv.org/abs/2509.03646

DeepSeek究竟如何让LLM学会推理?

强化学习(RL)虽已成为提升LLM复杂推理能力的颠覆性技术,但其内在机制始终不甚明朗。

在论文中,DeepSeek研究团队强调了强化学习的重要性:

大模型与强化学习环境交互,自然涌现出反思和重新评估(reflection)之类的行为。

他们给出了两条重要实验线索:「长度缩放效应」(length-scaling)和「顿悟时刻」(aha moment)。

在训练过程中,DeepSeek-R1-Zero的思考时长持续增长,自然而然地学会了用更多的思考时间来解决推理任务,如下图所示。


在强化学习(RL)过程中,DeepSeek-R1-Zero在训练集上的平均响应长度

在DeepSeek-R1-Zero的某个中间版本中,AI出乎意料地进入了「顿悟时刻」。他们认为这是强化学习的「力与美」。


DeepSeek-R1-Zero的中间版本展现了一个有趣的「顿悟时刻」:该模型学会了采用拟人化的方式来表达思考过程

这些现象如此奇特,被多家实验室复现。

为什么呢?为什么强化学习能提升LLM的推理能力?这些问题之前无人明确解释。

这次的研究突破性地揭示:

像「顿悟时刻」这类令人困惑的现象并不是孤立的事件,而是新兴推理层次结构的标志,类似于人类认知中高层次策略规划与低层次程序执行的分隔。

这一次揭示了强化学习推动推理能力提升的核心机制:模型先固化基础执行能力,再自主发展出策略规划能力。

阶段1(底层技能巩固):以执行tokens(execution tokens)的熵值下降为标志,模型专注于巩固低级技能(如算术计算、格式规范)。

阶段2(高层规划探索):学习重心转向高级规划,以规划tokens(planning tokens)的语义多样性提升为特征,模型持续增强推理能力并出现长度缩放效应(length scaling)。


图1:(左图)大语言模型的推理过程呈现出类人的层次化推理结构:高层策略规划与底层程序执行。(右图)在强化学习训练中,层次化推理通过两阶段动态过程涌现

研究者通过区分两类token验证这种转变:执行token对应具体操作步骤,规划token则体现为「尝试其他方法」等策略性表达。

他们发现,当模型掌握执行token后,规划token的多样性显著增加,这与推理能力提升及解决方案链条延长直接相关。

基于此,团队提出分层感知信用分配机制(HICRA)。

与传统均匀分配学习权重不同,HICRA重点强化规划token的学习权重,从而加速模型探索和巩固策略的能力。

实验表明,HICRA始终优于主流GRPO方法,且在模型已具备扎实执行技能时效果最佳——若执行基础薄弱,HICRA的优势则难以发挥。

这项研究的核心启示在于:推理能力的真正突破源于规划能力的提升,而非仅仅优化执行细节。

强化学习增强推理的两阶段动力学

实验分析表明,经强化学习训练的大语言模型并非整体性提升,而是遵循一种"性能瓶颈"随时间转移的两阶段学习动态。

第一阶段:锻造可靠程序引擎

初期,模型专注于掌握基础能力。它学习可靠地执行低级操作步骤,如格式规范、算术运算和变量替换。

这一阶段体现为「执行token」的不确定性(困惑度及token熵)急剧下降。


RL训练动力学:执行token的熵(图中灰色线)下降,而规划token的语义熵(图中红色线)上升

研究者追踪了代表性模型家族的训练动态曲线。

上图前两列显示,模型初始聚焦于程序巩固阶段,表现为执行token的模型困惑度(更高置信度)和token熵(更确定性)急剧下降。

随后发生向策略规划探索的转变(第三列),规划策略的多样性(语义熵)在Qwen模型上持续增长,或在Llama模型上出现拐点后增长,这与准确率持续提升及推理链延长(第四列)密切相关。

对于强模型或易学习数据,此阶段可能短暂甚至不存在,因为模型已具备可靠的基础低级技能,通常仅需对格式token进行最小调整。

第二阶段:掌握高级策略规划

当模型在低级技能上奠定坚实基础后,学习前沿发生转移。性能提升转为由探索和掌握高级策略驱动——例如选择新方法、回溯或识别关键定理。

通过测量规划token的语义熵,这次研究验证了这一转变。其中的语义熵用于反映模型高级策略计划的多样性。

规划token的语义熵(红线,第三列)从开始或拐点处持续上升,这种增长与推理准确率提升和长度缩放效应同步发生。

这表明策略正在主动扩展其策略计划库,以实现推理能力的持续提升。这与程序巩固阶段token级熵的急剧下降形成鲜明对比。

揭秘「神秘的现象」

这次的分层框架为强化学习训练中一些长期让人困惑的现象,提供了统一而清晰的解释:

1、「顿悟时刻」并非偶然灵光。

这类转折并不是随机爆发的才思,而是某种行为特征信号:模型在「发现—掌握—强化」某种强力的高层策略(如自我反思)

当策略被纳入并稳定执行时,模型的表现会出现突跃式改善。

2、「长度缩放」源于更好的规划。

随着模型探索到更丰富、更精细的策略(包括分类讨论、预先规划、回溯等),它自然会生成更长、更有结构的推理链条;而这类更长的输出,往往意味着更高的成功率与更好的表现

换言之,「输出越长越准」的现象,本质是高层规划能力增强的外在体现。

3、复杂的「熵」变化,其实并不神秘。

整体的token级熵常见下降,并非模型「变笨」,而是因为数量庞大的执行类词元(格式、算术、替换等)在训练中变得高度可预测,把总体曲线往下拉。

真正反映策略探索进展的,是高层规划词元的语义熵:它随训练逐步上升,准确刻画出模型在发明与扩充策略谱系方面的探索步伐。

归结起来:第一阶段通过降低执行不确定性「打好基本功」,第二阶段通过提升规划多样性「把思路打开」。这些看似各自为政的现象,其实都出自同一套分层学习动力学

这一发现揭示了当前RL方法(如GRPO)的核心低效问题:

它们对所有token施加无差别优化压力,稀释了学习信号。

既然高级推理的关键在于掌握策略,为何还要在已掌握的程序性步骤上浪费精力?

为解决此问题,研究者提出了一种新算法HICRA(Hierarchy-Aware Credit Assignment,分层感知信用分配),其核心设计理念是:

将模型的学习能力聚焦于稀疏但高价值的规划token。

分层感知信用分配

聚焦关键要素

通过放大策略举措的学习信号,HICRA加速了有效推理模式的发现与强化进程。

实验结果,效果惊人:定向优化规划全赢了!

在多个纯文本及视觉语言模型中,HICRA不断超越强大的GRPO基线方法,显著验证了定向优化规划token的有效性。


表1:在多项数学推理基准测试中,HICRA、GRPO与基座模型的性能对比。


表2:在多模态推理基准测试中,HICRA与GRPO的性能对比

为探究强化学习最有效的应用方向,这次分析了失败推演中错误类型的演变规律。

首先通过人工审查失败案例,归纳出四种不同的错误成因。

随后使用GPT-4o通过多选题形式将每个失败案例归类到对应成因,最后将这些分类解析为两大范畴:「规划与策略」(如逻辑缺陷、高层计划错误)和「其他错误」(如计算失误、事实检索错误)。

分析表明,强化学习(RL)的主要优势在于修正高层策略失误,而非细微的计算错误。


这也激发了HICRA的设计理念,即将学习重点集中在规划token上。

如下图5所示,HICRA的成功与其维持比GRPO更高的语义熵水平密切相关。

这种高层策略的更高多样性,直接与更强且更稳定的验证准确率相关联,证实了专注的策略探索是推理能力改进的主要驱动力。


何种指标能有效追踪策略探索?

准确衡量策略探索,对于诊断策略学习至关重要。

然而,这次发现诸如token级熵值等常用指标可能产生误导。

1、token级熵值的缺陷:该指标有时会收敛至较低水平,被实践者误判为「崩溃」。但这是错误的。

大量低层执行token主导了token级熵值,而这些token本身就会趋于可预测化(即低熵状态)。低层token的熵值下降,会拉低全局平均熵值,但这并不意味探索停止。相反,只要语义熵保持高位,就说明模型正在积极探索新高阶策略,且性能持续提升。

2、Pass@K指标的盲点:该通过K次尝试成功率衡量的指标,有时会饱和(例如所有查询都可能被解决),导致无法区分方法优劣或追踪训练后期的持续学习动态。

语义熵有效规避了这些缺陷。它直接衡量有意义策略方案的多样性。

如下图所示,语义熵始终保持强大区分力:当token熵值崩溃且Pass@8饱和时,仍能清晰显示HICRA持续的策略探索优势。这使其成为追踪真正推理发展的可靠指南。


token熵值(最右)崩溃且Pass@8(右二)饱和失效时,语义熵(最左)仍明确显示HICRA的持续探索优势,该优势与最终准确率提升正相关。

现有研究提出使用高熵的「分岔token」作为模型推理过程中决策点的代理指标。


链接:https://arxiv.org/abs/2506.01939

这类基于熵的token与基于功能定义的规划token之间,到底什么关系?

研究发现关键不对称性:

虽然大部分规划token确实呈现高熵特性(符合策略选择的预期),但反向关系并不成立。

大多数高熵token并非规划token,它们往往对应表述方式的简单变异或不影响整体策略的低层计算。

这揭示了仅依靠熵值识别具有精确语义功能token的局限性。

虽然功能定义的规划token大多具有高熵特性(下图左),但高熵token并非规划token的有效代理指标,因其多数承担其他功能(下图右)。


参考资料:

https://arxiv.org/abs/2509.03646

https://www.rohan-paul.com/p/new-paper-shows-why-reasoning-improves

https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军已算好,只要开打,中国一次造50艘航母,美国还有明白人

美军已算好,只要开打,中国一次造50艘航母,美国还有明白人

林子说事
2025-11-01 15:58:46
现场验货很成功,安德森vs曼联:3次关键传球+14次夺回球权

现场验货很成功,安德森vs曼联:3次关键传球+14次夺回球权

懂球帝
2025-11-02 03:13:10
曾被吹上天,如今却跌落神坛的4个国产运动鞋,你穿过哪些?

曾被吹上天,如今却跌落神坛的4个国产运动鞋,你穿过哪些?

诗意世界
2025-08-15 14:26:52
砸马犬男子被曝不是浙农大学生,他女朋友也已经毕业多年

砸马犬男子被曝不是浙农大学生,他女朋友也已经毕业多年

映射生活的身影
2025-11-01 22:51:35
扎尼奥洛近4场意甲打进3球,超上赛季且等同于此前49场进球数

扎尼奥洛近4场意甲打进3球,超上赛季且等同于此前49场进球数

懂球帝
2025-11-02 01:58:25
32岁杨紫陪父母和家人相聚,杨紫父亲低调随和,杨紫母亲状态年轻

32岁杨紫陪父母和家人相聚,杨紫父亲低调随和,杨紫母亲状态年轻

乡野小珥
2025-11-02 04:01:32
王菲女儿李嫣换头成功!18年天价费用修复兔唇,真堪比换头

王菲女儿李嫣换头成功!18年天价费用修复兔唇,真堪比换头

一盅情怀
2025-07-16 19:22:12
耻辱的0-3!英超中资队开局10轮不胜+垫底,57岁海港功勋下课在即

耻辱的0-3!英超中资队开局10轮不胜+垫底,57岁海港功勋下课在即

我爱英超
2025-11-02 01:04:03
医生忠告:吃完降压药千万别碰这3样食物,患者要牢记,不能大意

医生忠告:吃完降压药千万别碰这3样食物,患者要牢记,不能大意

今日养生之道
2025-10-23 08:08:38
莱昂纳德生涯第三次压哨绝杀!赛后谈细节:一直跟着琼斯移动路线

莱昂纳德生涯第三次压哨绝杀!赛后谈细节:一直跟着琼斯移动路线

Emily说个球
2025-11-01 13:46:30
带小三产检遇原配后续:曝男子是律师,吃软饭上位,小三也不简单

带小三产检遇原配后续:曝男子是律师,吃软饭上位,小三也不简单

银河史记
2025-11-01 21:13:54
全红婵也没想到!央视专访这次,陈芋汐仅一句话就让自己口碑暴涨

全红婵也没想到!央视专访这次,陈芋汐仅一句话就让自己口碑暴涨

科学发掘
2025-11-01 14:56:49
美女打屁股大赛,火了

美女打屁股大赛,火了

微微热评
2025-10-08 22:10:24
俄军大捷!攻占罗金西克:乌军不顾死守红军城命令,开始自发撤退

俄军大捷!攻占罗金西克:乌军不顾死守红军城命令,开始自发撤退

牛马搞笑
2025-11-02 04:35:46
从断网到断声:塔利班正在把阿富汗变成一座巨大的笼子

从断网到断声:塔利班正在把阿富汗变成一座巨大的笼子

西域都护
2025-10-03 15:15:59
内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

文史旺旺旺
2024-10-31 12:26:20
40岁C罗获评8.2分+MVP:无敌反越位破门+读秒点射绝杀,太牛了

40岁C罗获评8.2分+MVP:无敌反越位破门+读秒点射绝杀,太牛了

侧身凌空斩
2025-11-02 04:01:54
广东降温后,竟是全球17级风王。

广东降温后,竟是全球17级风王。

天气观察站
2025-11-02 05:39:00
反华总统国家面临亡国,妄想向中国请求援助,最终结果是什么?

反华总统国家面临亡国,妄想向中国请求援助,最终结果是什么?

混沌录
2025-10-11 22:32:05
为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

小椰的奶奶
2025-10-27 02:51:34
2025-11-02 06:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13761文章数 66236关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

美国防长国务卿受威胁 躲进军事基地

头条要闻

美国防长国务卿受威胁 躲进军事基地

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

换新一口价11.98万 第三代蓝电E5 PLUS开启预售

态度原创

房产
亲子
教育
本地
公开课

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

亲子要闻

父母对孩子的爱,孩子能感受 领域 感激,不接受的只是方法

教育要闻

2026高考报名,这八处变化一定要了解!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版