网易首页 > 网易号 > 正文 申请入驻

UC伯克利新作颠覆认知:LLM靠「自信爆表」学会推理?无需外部奖励超进化

0
分享至

新智元报道

编辑:Aeneas 犀牛

【新智元导读】不靠外部奖励,LLM纯靠「自信爆棚」,就能学会推理了?UC伯克利的华人团队发现,LLM居然跟人一样!靠自信来训练AI后,数学、编程性能提升惊人。

就在刚刚,UC伯克利CS博士后Xuandong Zhao,分享出来自己「今年参与的最鼓舞人心的工作」。

他和同事们发现,在没有外部奖励的情况下,LLM竟然只靠「自信爆棚」,就学会了复杂推理?

论文地址:https://arxiv.org/pdf/2505.19590

LLM靠自信心,竟能学会复杂推理

LLM不靠外部奖励,就能自己学会复杂推理,这个结论实在很出乎意料。

团队之所以能做出这个结果,是源于两个关键的观察。

  1. 在考试中,人们往往对自己有信心的问题,回答得更准确。这种「信心≈正确性」的模型,对LLM是否也适用呢?

  2. 在测试时推理中,长CoT或并行扩展技术(如多数投票)很常见。但在面对代码生成这样的开放式任务时,我们该如何在多样化的输出中做出选择呢?

为此,他们探讨了如何有效扩展「n选一最优」的选择策略。

现有的一些启发式方法,比如熵和困惑度都存在不少问题:比如对输出长度敏感、有偏差,而且在样本数量增加时效果变差。

然后,他们就得出了一个关键的洞察:衡量每个token的分布距离均匀分布有多远。KL散度KL(U‖P) ,可以量化模型在预测每个token时的「自信程度」。可以将这一度量称为「自我确定性」。

而它,正是熵的反面——不是覆盖多种可能,而是倾向于聚焦在最可能的结果上。

他们发现,自我确定性是一个非常有效的信号——

  1. 当答案已知时,它通过加权投票的方式表现优于多数投票。

  2. 当答案未知时,它仍然可以随着n的增加而稳健地扩展。

由此,在今年二月份,他们发表了第一篇论文。

论文地址:https://arxiv.org/abs/2502.18581

不过,他们的探究并未止步于此。一个后续问题自然而然出现了:如果「自我确定性」是一个良好的评估信号,它是否也可以用作训练模型的奖励?

也就是说,如果人类可以通过探索和反思建立起自己的信心,那LLM也能做到同样的事吗?

这就启发了研究者们的新范式——RLIF。

他们采用的新方法,使用自我确定性作为强化学习的奖励信号,而不需要外部监督。

结果,这种方法果然奏效了!

它在数学任务中的表现,可与使用规则奖励的GRPO相媲美,在代码生成任务中甚至有更好的泛化能力。

它能学习结构化推理——提前规划、分解问题,甚至能够遵循指令,而这一切都来自于内部反馈(内在奖励)。

Xuandong Zhao表示,这个项目给了自己很大信心,尤其看到一些同期研究(TTRL、基于熵的强化学习、语义熵+答案等)时。

很明显,RLIF是一个很有前景的方向。很显然,目前的探索才刚刚触及了表面。

展望未来,RLIF还提出了许多开放性问题。

  • 它为什么会有效?哪些任务最受益?

  • 它能否扩展到更大的模型?它与幻觉或记忆有何关系?

  • RLIF能否在现实世界的部署中补充RLHF或RLVR?

  • 它在智能体任务中的表现如何?

RLIF登场,打破根本局限

强化学习(RL)已经成为提升大语言模型能力的一个重要工具。

早期主要是基于人类反馈的强化学习(RLHF)上。

最近,基于可验证奖励的强化学习(RLVR)取得了进展,它用可自动验证的信号(如数学题解中精确匹配的答案)取代了传统的学习型奖励模型,并在DeepSeek-R1等模型上展现出了更强的推理能力。

尽管取得了不少成功,RLHF和RLVR仍然面临一些根本性的局限。

RLHF需要大量的人工标注,成本高且容易存在偏见。

而RLVR则需要特定领域的验证器与标准答案。例如,在数学领域需要专家标注的解;代码生成任务中,需要全面的测试用例和执行环境。

那么,大语言模型能够否仅靠自身生成的内在信号来提升推理能力?

于是本文的研究者们提出、探索了一种新范式:基于内部反馈的强化学习(Reinforcement Learning from Internal Feedback,RLIF)。

在这种新范式下,模型通过优化自身的内部反馈来提升性能,从而无需外部奖励或监督。

RLIF不仅适用于当前的场景,还延伸到了未来——当模型的发展超出人类能力,人类难以直接评估其表现时,模型只能通过内在机制实现自我改进。

在RLIF范式下,研究团队提出了INTUITOR,这是一种新的强化学习方法,利用模型自身的置信度作为一种内在奖励。

具体来说,团队使用自我确定性作为置信度的衡量标准。自我确定性已被证明可以有效区分高质量和有缺陷的回答。

INTUITOR的实现方式简单、高效且有效:团队用自我确定性得分取代了现有RLVR框架(特别是GRPO)中的可验证奖励信号,并沿用了相同的策略梯度算法。

实验设置

训练设置

GRPO和INTUITOR都使用Open-R1框架在MATH数据集的训练集上进行训练,该数据集包含7,500道题目。

研究者采用Qwen2.5-1.5B和Qwen2.5-3B作为基础模型,全程使用对话式提示格式。

由于这些模型最初在指令遵循能力上较弱,不强制要求它们将中间推理过程与最终答案拆分开。

每次更新处理128道题目,每题生成7个候选解,默认的KL惩罚系数为β=0.005。

为了公平比较,GRPO与INTUITOR使用完全相同的超参数,未进行额外调参。

INTUITOR在代码生成任务中的应用(INTUITOR-Code)

为评估其在数学推理之外的泛化能力,研究者将INTUITOR应用于Codeforces代码生成数据集。该变体在表1中被标记为INTUITOR-Code。

评估

评估阶段大多采用与训练一致的对话式提示格式。所有生成均采用贪婪解码。

实验在英伟达A100显卡上进行,每张卡具有40GB显存。

在以下基准上,研究者评估了模型性能:

数学推理任务:MATH500和GSM8K,使用lighteval库;

代码推理任务:CRUXEval-O,使用ZeroEval 框架,以及LiveCodeBench v6(LCB);

指令遵循任务:AlpacaEval 2.0,使用长度控制的胜率指标,由GPT-4.1进行评审。

结果与分析

表1展示了主要的评估结果,图3则显示了训练过程中回答长度的变化趋势。

在MATH和GSM8K数据集上,INTUITOR和GRPO-PV(两者都不依赖标准答案)表现出了与GRPO(使用标准答案)相当的性能。

虽然INTUITOR整体表现略逊于GRPO,但在MATH数据集上,它的回答更长,且代码生成能力显著提升,显示出更强的推理能力。

各种方法在GSM8K、MATH、LCB、CRUXEval-O、MMLU-Pro和AlpacaEval基准测试上的性能对比

训练过程中平均响应长度。对于Qwen2.5-1.5B模型,INTUITOR和GRPO减少了无意义输出。对于Qwen2.5-3B模型,INTUITOR和GRPO增加了推理长度,其中INTUITOR的响应长度显著更长。GRPO-PV的长度增加最小

学会遵循指令

INTUITOR在遵循指令方面有了显著提升。

最初,预训练的Qwen2.5-1.5B模型在处理对话式提示时表现不佳,在所有对话模板任务上的得分低于10%(见表1),生成的回答往往重复且无意义,导致平均回答长度过长(见图3)。

通过INTUITOR的微调,这种无意义输出大幅减少,回答长度缩短,且在所有评估基准上都取得了非凡的性能提升。

此外,在MATH数据集上,INTUITOR显著提高了Qwen2.5-1.5B和Qwen2.5-3B模型在AlpacaEval上的长度控制胜率,超越了相同设置下的GRPO。

这表明INTUITOR在遵循指令方面取得了稳健的进步。

培养结构化推理

快速初步学习。「自我确定性」是一种连续的、内在的奖励信号,来自模型对所有token的内部评估,与二元奖励形成对比。

这种内部信号可能推动大语言模型(LLMs)走上更高效的学习路径。

考虑到GRPO和INTUITOR的最终表现不分伯仲,团队通过对比两者在训练至第10步时的领域内准确率,来评估它们早期的学习能力。

如表2所示,在GSM8K和MATH基准测试中,INTUITOR在Qwen2.5-1.5B和Qwen2.5-3B模型上始终优于GRPO,凸显了其在快速初步学习上的优势。

跨任务泛化。图4展示了在MATH数据集上训练的模型在MATH500(领域内任务)和LiveCodeBench(迁移任务)上的表现变化。

无论是INTUITOR还是GRPO,模型都会先在MATH500上率先提分,而LiveCodeBench的准确率提升要到训练后期才逐渐显现。

更有意思的是,哪怕MATH500的成绩已经进入平台期,LiveCodeBench上的表现仍在继续攀升。

这说明:先在MATH数据上学到的「本行」知识,为之后迁移到代码生成任务(LiveCodeBench)提供了扎实的基础。

长推理的涌现虽然像Deepseek-R1这样的大模型通过大量强化学习(RL)实现长篇推理,但INTUITOR使较小的模型在有限数据下也能发展出结构化推理能力。

在CRUXEval-O基准(图5)上,用INTUITOR训出来的模型常常先用自然语言随意地想一番,再把结论浓缩进要求的JSON里——尽管提示里已经要求它直接用JSON推理。

同样的「先自然语言推理,后写代码」现象,也出现在LiveCodeBench上。

这种自发出现的「预推理」过程,或许正是INTUITOR能在这些评测中表现亮眼的关键。

理解LLM的涌现式长链推理能力

当LLM遇到陌生问题时,它们会从一组可能的答案分布中进行采样。

自我确定性反映了模型对其输出连贯性的内部评估。通过强化高自信度的回答,INTUITOR鼓励更具层次的推理过程,有可能提升模型对自身输出的理解能力。

研究者通过分析使用INTUITOR训练的代码模型在不同训练阶段生成的结果,来观察这一机制。

具体方法是从LiveCodeBench数据集中随机选取10道题,观察各训练阶段模型的输出演变。

图6展示了输出类型和模型准确率的变化趋势。

结果显示出了清晰的演进路径:模型首先学会生成有效的 Python 代码(体现在准确率提升和无效输出减少),随后开始发展出前置推理能力,以便更好地理解自身行为。

进一步的生成样本检查也证实:模型在训练过程中会逐步丰富其推理内容,验证了我们关于「INTUITOR鼓励模型生成自身更易理解的推理轨迹」的假设。

在线自置信防止奖励滥用

在强化学习里,如果奖励模型是静态的,策略就可能一味钻空子而不是老老实实提高能力。

为测试把「自置信」当奖励到底稳不稳定,团队做了两种设置:

  • 离线自置信:奖励来自固定的基础模型;

  • 在线自置信:奖励随策略模型一同更新。

两种情况下,我们把每次梯度更新的批大小都降到224条回答。

图7所示,大约在第100次更新后,离线设置的策略学会了「刷分」:它在每个答案后偷偷附上一道自己早已解出的额外题目,以此抬高自置信奖励。结果是:

  • 回答长度(虚线)突然飙升;

  • 验证准确率(实线)却瞬间崩盘。

在线设置下,奖励信号随着策略同步进化,策略想「骗分」就难多了,训练曲线始终平稳。

研究团队进一步拿INTUITOR和GRPO在MATH500上生成的回答,分析自置信分布(图8),并用Mann–Whitney U检验比较正确与错误答案的自置信差异。

  • 正确答案的平均自置信都显著高于错误答案。

  • INTUITOR(在线自置信):没有任何「刷分」迹象,在U检验中给出了最低p值和最大的效应量r,说明它最能用自置信区分对错,即便整体信心更高。

这些结果表明,INTUITOR的在线自置信机制不仅防止了奖励被滥用,还让模型在大规模数据集上有望保持稳健训练。

参考资料:

https://x.com/xuandongzhao/status/1927270937033883928

https://arxiv.org/abs/2505.19590

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世体:弗拉霍维奇再次向巴萨示好,认为自己的特点可接替莱万

世体:弗拉霍维奇再次向巴萨示好,认为自己的特点可接替莱万

懂球帝
2026-06-28 12:57:16
一场3-1逆转,改变世界杯4队命运!从濒临淘汰到榜首,韩国被群嘲

一场3-1逆转,改变世界杯4队命运!从濒临淘汰到榜首,韩国被群嘲

阿纂看事
2026-06-28 11:06:06
英媒:乌加特可能伤缺9-12个月,曼联最多可向FIFA索赔578万镑

英媒:乌加特可能伤缺9-12个月,曼联最多可向FIFA索赔578万镑

懂球帝
2026-06-28 01:57:18
超级富二代的自我毁灭:玩游戏、追网红,两年败光3个亿

超级富二代的自我毁灭:玩游戏、追网红,两年败光3个亿

记录生活日常阿蜴
2026-06-26 14:42:24
最后的疯狂:许家印被抓捕的失控三秒钟,简直是惊心动魄

最后的疯狂:许家印被抓捕的失控三秒钟,简直是惊心动魄

橘仔看世界
2026-06-27 08:38:00
薄一波两位亲家是谁?一位身经百战将军,一位仕途辉煌副国级高层

薄一波两位亲家是谁?一位身经百战将军,一位仕途辉煌副国级高层

人生录
2026-06-24 12:53:18
真主党在首都骚乱,说明黎巴嫩政府做对了:以色列并不是最大敌人

真主党在首都骚乱,说明黎巴嫩政府做对了:以色列并不是最大敌人

林子说事
2026-06-27 18:20:55
雷佳音喊话网友支持《抓特务》,网友:您“走个面”请我看

雷佳音喊话网友支持《抓特务》,网友:您“走个面”请我看

阿乐碎碎念
2026-06-26 12:42:35
康熙去世国库剩2716万两,雍正去世剩3453万,乾隆去世时剩多少?

康熙去世国库剩2716万两,雍正去世剩3453万,乾隆去世时剩多少?

云居历史
2026-06-27 17:18:51
1955年,何应钦和同事在台湾家中打牌的留影,美女相伴好不惬意!

1955年,何应钦和同事在台湾家中打牌的留影,美女相伴好不惬意!

云霄纪史观
2026-06-28 00:39:04
中国工程院院士崔崑逝世,众人排长队送别

中国工程院院士崔崑逝世,众人排长队送别

政知新媒体
2026-06-28 13:00:41
WTT美国大满贯:男单首场大爆冷!世界冠军2:3遭绝杀,国乒2连胜

WTT美国大满贯:男单首场大爆冷!世界冠军2:3遭绝杀,国乒2连胜

刘哥谈体育
2026-06-28 12:15:58
李谷一不再沉默,揭晓宋祖英唱歌真相,观众:原来是这样!

李谷一不再沉默,揭晓宋祖英唱歌真相,观众:原来是这样!

林轻吟
2026-06-27 09:30:42
导弹、核武、稀土都奈何不了日本,唯独中国一查间谍,日本就急了

导弹、核武、稀土都奈何不了日本,唯独中国一查间谍,日本就急了

安安说
2026-06-25 11:24:32
在上海,白玉兰一年开两次,一次是在春天,一次是在夏天

在上海,白玉兰一年开两次,一次是在春天,一次是在夏天

澎湃新闻
2026-06-27 18:26:28
7-8月运势不得了,有喜事贵人接连上门,财源滚滚天天兴旺的生肖

7-8月运势不得了,有喜事贵人接连上门,财源滚滚天天兴旺的生肖

毅谈生肖
2026-06-28 10:27:40
官媒曝光韩红真实籍贯,不是西藏和北京,原来她和成龙是同类人!

官媒曝光韩红真实籍贯,不是西藏和北京,原来她和成龙是同类人!

好贤观史记
2026-06-27 12:53:18
大学专业死亡潮来临,正准备报志愿的高考生傻眼了

大学专业死亡潮来临,正准备报志愿的高考生傻眼了

果壳
2026-06-26 16:19:44
南大博士发帖怒斥韩红!此前她感慨遭遇“最冷酷无情的人世间”

南大博士发帖怒斥韩红!此前她感慨遭遇“最冷酷无情的人世间”

火山詩话
2026-06-27 15:08:14
中国菲律宾在黄岩岛发生武装对峙

中国菲律宾在黄岩岛发生武装对峙

凤眼论
2026-06-25 18:45:27
2026-06-28 13:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15551文章数 66940关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

白玉兰奖落幕,唯她被骂惨

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

蔚来ES大五座体验 全场景行李舱让你带着生活出发

态度原创

健康
家居
数码
本地
公开课

“无糖汤圆”是否隐藏着健康陷阱?

家居要闻

绿意盎然 自然之境

数码要闻

红魔游戏平板5 Pro软件功能首曝,支持AI战术教练陪玩指导等

本地新闻

世界杯球迷节:比球赛更好玩的派对

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版