网易首页 > 网易号 > 正文 申请入驻

顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】DeepSeek的强化学习GRPO为什么能让大模型「集体顿悟」?港科大、滑铁卢、清华等团队最新研究给出统一解释:在RL中,LLM推理自发分层——先巩固底层「执行」,再探索高层「规划」。基于此,还提出了更强HICRA算法。

众所周知,强化学习(Reinforcement Learning,RL)能提升大语言模型LLM的推理能力。

但没人说清楚:为什么会这样?

最近,香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本,首次揭示:

大模型正在以类人的方式学会推理——通过将高层策略规划与底层程序执行相分离。


论文链接:https://arxiv.org/abs/2509.03646

DeepSeek究竟如何让LLM学会推理?

强化学习(RL)虽已成为提升LLM复杂推理能力的颠覆性技术,但其内在机制始终不甚明朗。

在论文中,DeepSeek研究团队强调了强化学习的重要性:

大模型与强化学习环境交互,自然涌现出反思和重新评估(reflection)之类的行为。

他们给出了两条重要实验线索:「长度缩放效应」(length-scaling)和「顿悟时刻」(aha moment)。

在训练过程中,DeepSeek-R1-Zero的思考时长持续增长,自然而然地学会了用更多的思考时间来解决推理任务,如下图所示。


在强化学习(RL)过程中,DeepSeek-R1-Zero在训练集上的平均响应长度

在DeepSeek-R1-Zero的某个中间版本中,AI出乎意料地进入了「顿悟时刻」。他们认为这是强化学习的「力与美」。


DeepSeek-R1-Zero的中间版本展现了一个有趣的「顿悟时刻」:该模型学会了采用拟人化的方式来表达思考过程

这些现象如此奇特,被多家实验室复现。

为什么呢?为什么强化学习能提升LLM的推理能力?这些问题之前无人明确解释。

这次的研究突破性地揭示:

像「顿悟时刻」这类令人困惑的现象并不是孤立的事件,而是新兴推理层次结构的标志,类似于人类认知中高层次策略规划与低层次程序执行的分隔。

这一次揭示了强化学习推动推理能力提升的核心机制:模型先固化基础执行能力,再自主发展出策略规划能力。

阶段1(底层技能巩固):以执行tokens(execution tokens)的熵值下降为标志,模型专注于巩固低级技能(如算术计算、格式规范)。

阶段2(高层规划探索):学习重心转向高级规划,以规划tokens(planning tokens)的语义多样性提升为特征,模型持续增强推理能力并出现长度缩放效应(length scaling)。


图1:(左图)大语言模型的推理过程呈现出类人的层次化推理结构:高层策略规划与底层程序执行。(右图)在强化学习训练中,层次化推理通过两阶段动态过程涌现

研究者通过区分两类token验证这种转变:执行token对应具体操作步骤,规划token则体现为「尝试其他方法」等策略性表达。

他们发现,当模型掌握执行token后,规划token的多样性显著增加,这与推理能力提升及解决方案链条延长直接相关。

基于此,团队提出分层感知信用分配机制(HICRA)。

与传统均匀分配学习权重不同,HICRA重点强化规划token的学习权重,从而加速模型探索和巩固策略的能力。

实验表明,HICRA始终优于主流GRPO方法,且在模型已具备扎实执行技能时效果最佳——若执行基础薄弱,HICRA的优势则难以发挥。

这项研究的核心启示在于:推理能力的真正突破源于规划能力的提升,而非仅仅优化执行细节。

强化学习增强推理的两阶段动力学

实验分析表明,经强化学习训练的大语言模型并非整体性提升,而是遵循一种"性能瓶颈"随时间转移的两阶段学习动态。

第一阶段:锻造可靠程序引擎

初期,模型专注于掌握基础能力。它学习可靠地执行低级操作步骤,如格式规范、算术运算和变量替换。

这一阶段体现为「执行token」的不确定性(困惑度及token熵)急剧下降。


RL训练动力学:执行token的熵(图中灰色线)下降,而规划token的语义熵(图中红色线)上升

研究者追踪了代表性模型家族的训练动态曲线。

上图前两列显示,模型初始聚焦于程序巩固阶段,表现为执行token的模型困惑度(更高置信度)和token熵(更确定性)急剧下降。

随后发生向策略规划探索的转变(第三列),规划策略的多样性(语义熵)在Qwen模型上持续增长,或在Llama模型上出现拐点后增长,这与准确率持续提升及推理链延长(第四列)密切相关。

对于强模型或易学习数据,此阶段可能短暂甚至不存在,因为模型已具备可靠的基础低级技能,通常仅需对格式token进行最小调整。

第二阶段:掌握高级策略规划

当模型在低级技能上奠定坚实基础后,学习前沿发生转移。性能提升转为由探索和掌握高级策略驱动——例如选择新方法、回溯或识别关键定理。

通过测量规划token的语义熵,这次研究验证了这一转变。其中的语义熵用于反映模型高级策略计划的多样性。

规划token的语义熵(红线,第三列)从开始或拐点处持续上升,这种增长与推理准确率提升和长度缩放效应同步发生。

这表明策略正在主动扩展其策略计划库,以实现推理能力的持续提升。这与程序巩固阶段token级熵的急剧下降形成鲜明对比。

揭秘「神秘的现象」

这次的分层框架为强化学习训练中一些长期让人困惑的现象,提供了统一而清晰的解释:

1、「顿悟时刻」并非偶然灵光。

这类转折并不是随机爆发的才思,而是某种行为特征信号:模型在「发现—掌握—强化」某种强力的高层策略(如自我反思)

当策略被纳入并稳定执行时,模型的表现会出现突跃式改善。

2、「长度缩放」源于更好的规划。

随着模型探索到更丰富、更精细的策略(包括分类讨论、预先规划、回溯等),它自然会生成更长、更有结构的推理链条;而这类更长的输出,往往意味着更高的成功率与更好的表现

换言之,「输出越长越准」的现象,本质是高层规划能力增强的外在体现。

3、复杂的「熵」变化,其实并不神秘。

整体的token级熵常见下降,并非模型「变笨」,而是因为数量庞大的执行类词元(格式、算术、替换等)在训练中变得高度可预测,把总体曲线往下拉。

真正反映策略探索进展的,是高层规划词元的语义熵:它随训练逐步上升,准确刻画出模型在发明与扩充策略谱系方面的探索步伐。

归结起来:第一阶段通过降低执行不确定性「打好基本功」,第二阶段通过提升规划多样性「把思路打开」。这些看似各自为政的现象,其实都出自同一套分层学习动力学

这一发现揭示了当前RL方法(如GRPO)的核心低效问题:

它们对所有token施加无差别优化压力,稀释了学习信号。

既然高级推理的关键在于掌握策略,为何还要在已掌握的程序性步骤上浪费精力?

为解决此问题,研究者提出了一种新算法HICRA(Hierarchy-Aware Credit Assignment,分层感知信用分配),其核心设计理念是:

将模型的学习能力聚焦于稀疏但高价值的规划token。

分层感知信用分配

聚焦关键要素

通过放大策略举措的学习信号,HICRA加速了有效推理模式的发现与强化进程。

实验结果,效果惊人:定向优化规划全赢了!

在多个纯文本及视觉语言模型中,HICRA不断超越强大的GRPO基线方法,显著验证了定向优化规划token的有效性。


表1:在多项数学推理基准测试中,HICRA、GRPO与基座模型的性能对比。


表2:在多模态推理基准测试中,HICRA与GRPO的性能对比

为探究强化学习最有效的应用方向,这次分析了失败推演中错误类型的演变规律。

首先通过人工审查失败案例,归纳出四种不同的错误成因。

随后使用GPT-4o通过多选题形式将每个失败案例归类到对应成因,最后将这些分类解析为两大范畴:「规划与策略」(如逻辑缺陷、高层计划错误)和「其他错误」(如计算失误、事实检索错误)。

分析表明,强化学习(RL)的主要优势在于修正高层策略失误,而非细微的计算错误。


这也激发了HICRA的设计理念,即将学习重点集中在规划token上。

如下图5所示,HICRA的成功与其维持比GRPO更高的语义熵水平密切相关。

这种高层策略的更高多样性,直接与更强且更稳定的验证准确率相关联,证实了专注的策略探索是推理能力改进的主要驱动力。


何种指标能有效追踪策略探索?

准确衡量策略探索,对于诊断策略学习至关重要。

然而,这次发现诸如token级熵值等常用指标可能产生误导。

1、token级熵值的缺陷:该指标有时会收敛至较低水平,被实践者误判为「崩溃」。但这是错误的。

大量低层执行token主导了token级熵值,而这些token本身就会趋于可预测化(即低熵状态)。低层token的熵值下降,会拉低全局平均熵值,但这并不意味探索停止。相反,只要语义熵保持高位,就说明模型正在积极探索新高阶策略,且性能持续提升。

2、Pass@K指标的盲点:该通过K次尝试成功率衡量的指标,有时会饱和(例如所有查询都可能被解决),导致无法区分方法优劣或追踪训练后期的持续学习动态。

语义熵有效规避了这些缺陷。它直接衡量有意义策略方案的多样性。

如下图所示,语义熵始终保持强大区分力:当token熵值崩溃且Pass@8饱和时,仍能清晰显示HICRA持续的策略探索优势。这使其成为追踪真正推理发展的可靠指南。


token熵值(最右)崩溃且Pass@8(右二)饱和失效时,语义熵(最左)仍明确显示HICRA的持续探索优势,该优势与最终准确率提升正相关。

现有研究提出使用高熵的「分岔token」作为模型推理过程中决策点的代理指标。


链接:https://arxiv.org/abs/2506.01939

这类基于熵的token与基于功能定义的规划token之间,到底什么关系?

研究发现关键不对称性:

虽然大部分规划token确实呈现高熵特性(符合策略选择的预期),但反向关系并不成立。

大多数高熵token并非规划token,它们往往对应表述方式的简单变异或不影响整体策略的低层计算。

这揭示了仅依靠熵值识别具有精确语义功能token的局限性。

虽然功能定义的规划token大多具有高熵特性(下图左),但高熵token并非规划token的有效代理指标,因其多数承担其他功能(下图右)。


参考资料:

https://arxiv.org/abs/2509.03646

https://www.rohan-paul.com/p/new-paper-shows-why-reasoning-improves

https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
入睡时间缩短10倍!北大研究揭示:3亿人失眠或是肠道里缺了它

入睡时间缩短10倍!北大研究揭示:3亿人失眠或是肠道里缺了它

思思夜话
2025-10-31 11:52:53
民主党的遮羞布这下被撕碎了,拜登前发言人访谈翻车,不知所云

民主党的遮羞布这下被撕碎了,拜登前发言人访谈翻车,不知所云

锐器
2025-11-01 23:24:03
在家突发心梗别乱来!医生教你黄金5分钟自救法,关键能保命

在家突发心梗别乱来!医生教你黄金5分钟自救法,关键能保命

袁医生课堂
2025-10-31 18:50:24
官宣,王少杰发声,正式加盟,出发北京,名单公布,杜锋祝福

官宣,王少杰发声,正式加盟,出发北京,名单公布,杜锋祝福

乐聊球
2025-11-01 10:06:24
印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

趣笔谈
2025-09-29 16:51:57
巴基斯坦“罕见公开”!

巴基斯坦“罕见公开”!

环球时报新闻
2025-11-01 09:12:16
南京35岁女子在家啃老13年,父母退休后直接离家,4个月后女儿傻眼

南京35岁女子在家啃老13年,父母退休后直接离家,4个月后女儿傻眼

如烟若梦
2025-10-30 16:16:31
最可能对俄开战的10国,大鹅的世仇占一半,前三名和大鹅必有一战

最可能对俄开战的10国,大鹅的世仇占一半,前三名和大鹅必有一战

黑洞观星
2025-11-01 16:10:09
中央公开通报当天,中国信息协会表态:严肃问责相关负责人

中央公开通报当天,中国信息协会表态:严肃问责相关负责人

新京报
2025-11-01 17:00:07
芋头立大功?医学研究:芋头可在12小时内清除40%肠道垃圾?

芋头立大功?医学研究:芋头可在12小时内清除40%肠道垃圾?

涵豆说娱
2025-11-01 15:34:09
被步行者逆转,谁注意科尔库里在干嘛?末节迷之操作主导球队崩盘

被步行者逆转,谁注意科尔库里在干嘛?末节迷之操作主导球队崩盘

篮球资讯达人
2025-11-02 10:35:10
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
下周,A股即将发生重大变化!这三个板块即将大涨

下周,A股即将发生重大变化!这三个板块即将大涨

娱乐八卦木木子
2025-11-02 08:36:45
蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

蒋万安手腕够绝:上午与郑丽文握手发通稿,下午便端坐其对面

时尚的弄潮
2025-10-27 00:25:38
被遗忘的战役:20万德军血战190万苏军,杀伤110万,却打出了阴影

被遗忘的战役:20万德军血战190万苏军,杀伤110万,却打出了阴影

老闫侃史
2025-10-31 18:25:03
苹果 Pro 新品来了,真的很强

苹果 Pro 新品来了,真的很强

科技堡垒
2025-11-01 10:37:01
170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

健身迷
2025-09-20 09:22:20
通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

通背拳传人与老外互扇耳光!第一下被打出血,第三下被打晕翻白眼

念洲
2025-11-01 12:37:45
一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

一旦武统台湾,这4个台湾人必上“斩首”名单,全都是罪有应得!

老闫侃史
2025-08-10 18:05:03
南方省份一小区的三网宽带光箱,打开后惊呆了…

南方省份一小区的三网宽带光箱,打开后惊呆了…

通信老柳
2025-10-31 07:58:00
2025-11-02 11:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13763文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

妻儿3人被丈夫发小杀害 妻子指甲里有凶手的DNA

头条要闻

妻儿3人被丈夫发小杀害 妻子指甲里有凶手的DNA

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

离世的他曾是刘德华张学友御用班底

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

家居
健康
艺术
房产
军事航空

家居要闻

吸睛艺术 富有传奇色彩

核磁VS肌骨超声,谁更胜一筹?

艺术要闻

隈研吾翻车?设计了武汉酒店,网友:像一栋“凉席大厦”

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版