网易首页 > 网易号 > 正文 申请入驻

UC伯克利新作颠覆认知:LLM靠「自信爆表」学会推理?无需外部奖励超进化

0
分享至

新智元报道

编辑:Aeneas 犀牛

【新智元导读】不靠外部奖励,LLM纯靠「自信爆棚」,就能学会推理了?UC伯克利的华人团队发现,LLM居然跟人一样!靠自信来训练AI后,数学、编程性能提升惊人。

就在刚刚,UC伯克利CS博士后Xuandong Zhao,分享出来自己「今年参与的最鼓舞人心的工作」。

他和同事们发现,在没有外部奖励的情况下,LLM竟然只靠「自信爆棚」,就学会了复杂推理?

论文地址:https://arxiv.org/pdf/2505.19590

LLM靠自信心,竟能学会复杂推理

LLM不靠外部奖励,就能自己学会复杂推理,这个结论实在很出乎意料。

团队之所以能做出这个结果,是源于两个关键的观察。

  1. 在考试中,人们往往对自己有信心的问题,回答得更准确。这种「信心≈正确性」的模型,对LLM是否也适用呢?

  2. 在测试时推理中,长CoT或并行扩展技术(如多数投票)很常见。但在面对代码生成这样的开放式任务时,我们该如何在多样化的输出中做出选择呢?

为此,他们探讨了如何有效扩展「n选一最优」的选择策略。

现有的一些启发式方法,比如熵和困惑度都存在不少问题:比如对输出长度敏感、有偏差,而且在样本数量增加时效果变差。

然后,他们就得出了一个关键的洞察:衡量每个token的分布距离均匀分布有多远。KL散度KL(U‖P) ,可以量化模型在预测每个token时的「自信程度」。可以将这一度量称为「自我确定性」。

而它,正是熵的反面——不是覆盖多种可能,而是倾向于聚焦在最可能的结果上。

他们发现,自我确定性是一个非常有效的信号——

  1. 当答案已知时,它通过加权投票的方式表现优于多数投票。

  2. 当答案未知时,它仍然可以随着n的增加而稳健地扩展。

由此,在今年二月份,他们发表了第一篇论文。

论文地址:https://arxiv.org/abs/2502.18581

不过,他们的探究并未止步于此。一个后续问题自然而然出现了:如果「自我确定性」是一个良好的评估信号,它是否也可以用作训练模型的奖励?

也就是说,如果人类可以通过探索和反思建立起自己的信心,那LLM也能做到同样的事吗?

这就启发了研究者们的新范式——RLIF。

他们采用的新方法,使用自我确定性作为强化学习的奖励信号,而不需要外部监督。

结果,这种方法果然奏效了!

它在数学任务中的表现,可与使用规则奖励的GRPO相媲美,在代码生成任务中甚至有更好的泛化能力。

它能学习结构化推理——提前规划、分解问题,甚至能够遵循指令,而这一切都来自于内部反馈(内在奖励)。

Xuandong Zhao表示,这个项目给了自己很大信心,尤其看到一些同期研究(TTRL、基于熵的强化学习、语义熵+答案等)时。

很明显,RLIF是一个很有前景的方向。很显然,目前的探索才刚刚触及了表面。

展望未来,RLIF还提出了许多开放性问题。

  • 它为什么会有效?哪些任务最受益?

  • 它能否扩展到更大的模型?它与幻觉或记忆有何关系?

  • RLIF能否在现实世界的部署中补充RLHF或RLVR?

  • 它在智能体任务中的表现如何?

RLIF登场,打破根本局限

强化学习(RL)已经成为提升大语言模型能力的一个重要工具。

早期主要是基于人类反馈的强化学习(RLHF)上。

最近,基于可验证奖励的强化学习(RLVR)取得了进展,它用可自动验证的信号(如数学题解中精确匹配的答案)取代了传统的学习型奖励模型,并在DeepSeek-R1等模型上展现出了更强的推理能力。

尽管取得了不少成功,RLHF和RLVR仍然面临一些根本性的局限。

RLHF需要大量的人工标注,成本高且容易存在偏见。

而RLVR则需要特定领域的验证器与标准答案。例如,在数学领域需要专家标注的解;代码生成任务中,需要全面的测试用例和执行环境。

那么,大语言模型能够否仅靠自身生成的内在信号来提升推理能力?

于是本文的研究者们提出、探索了一种新范式:基于内部反馈的强化学习(Reinforcement Learning from Internal Feedback,RLIF)。

在这种新范式下,模型通过优化自身的内部反馈来提升性能,从而无需外部奖励或监督。

RLIF不仅适用于当前的场景,还延伸到了未来——当模型的发展超出人类能力,人类难以直接评估其表现时,模型只能通过内在机制实现自我改进。

在RLIF范式下,研究团队提出了INTUITOR,这是一种新的强化学习方法,利用模型自身的置信度作为一种内在奖励。

具体来说,团队使用自我确定性作为置信度的衡量标准。自我确定性已被证明可以有效区分高质量和有缺陷的回答。

INTUITOR的实现方式简单、高效且有效:团队用自我确定性得分取代了现有RLVR框架(特别是GRPO)中的可验证奖励信号,并沿用了相同的策略梯度算法。

实验设置

训练设置

GRPO和INTUITOR都使用Open-R1框架在MATH数据集的训练集上进行训练,该数据集包含7,500道题目。

研究者采用Qwen2.5-1.5B和Qwen2.5-3B作为基础模型,全程使用对话式提示格式。

由于这些模型最初在指令遵循能力上较弱,不强制要求它们将中间推理过程与最终答案拆分开。

每次更新处理128道题目,每题生成7个候选解,默认的KL惩罚系数为β=0.005。

为了公平比较,GRPO与INTUITOR使用完全相同的超参数,未进行额外调参。

INTUITOR在代码生成任务中的应用(INTUITOR-Code)

为评估其在数学推理之外的泛化能力,研究者将INTUITOR应用于Codeforces代码生成数据集。该变体在表1中被标记为INTUITOR-Code。

评估

评估阶段大多采用与训练一致的对话式提示格式。所有生成均采用贪婪解码。

实验在英伟达A100显卡上进行,每张卡具有40GB显存。

在以下基准上,研究者评估了模型性能:

数学推理任务:MATH500和GSM8K,使用lighteval库;

代码推理任务:CRUXEval-O,使用ZeroEval 框架,以及LiveCodeBench v6(LCB);

指令遵循任务:AlpacaEval 2.0,使用长度控制的胜率指标,由GPT-4.1进行评审。

结果与分析

表1展示了主要的评估结果,图3则显示了训练过程中回答长度的变化趋势。

在MATH和GSM8K数据集上,INTUITOR和GRPO-PV(两者都不依赖标准答案)表现出了与GRPO(使用标准答案)相当的性能。

虽然INTUITOR整体表现略逊于GRPO,但在MATH数据集上,它的回答更长,且代码生成能力显著提升,显示出更强的推理能力。

各种方法在GSM8K、MATH、LCB、CRUXEval-O、MMLU-Pro和AlpacaEval基准测试上的性能对比

训练过程中平均响应长度。对于Qwen2.5-1.5B模型,INTUITOR和GRPO减少了无意义输出。对于Qwen2.5-3B模型,INTUITOR和GRPO增加了推理长度,其中INTUITOR的响应长度显著更长。GRPO-PV的长度增加最小

学会遵循指令

INTUITOR在遵循指令方面有了显著提升。

最初,预训练的Qwen2.5-1.5B模型在处理对话式提示时表现不佳,在所有对话模板任务上的得分低于10%(见表1),生成的回答往往重复且无意义,导致平均回答长度过长(见图3)。

通过INTUITOR的微调,这种无意义输出大幅减少,回答长度缩短,且在所有评估基准上都取得了非凡的性能提升。

此外,在MATH数据集上,INTUITOR显著提高了Qwen2.5-1.5B和Qwen2.5-3B模型在AlpacaEval上的长度控制胜率,超越了相同设置下的GRPO。

这表明INTUITOR在遵循指令方面取得了稳健的进步。

培养结构化推理

快速初步学习。「自我确定性」是一种连续的、内在的奖励信号,来自模型对所有token的内部评估,与二元奖励形成对比。

这种内部信号可能推动大语言模型(LLMs)走上更高效的学习路径。

考虑到GRPO和INTUITOR的最终表现不分伯仲,团队通过对比两者在训练至第10步时的领域内准确率,来评估它们早期的学习能力。

如表2所示,在GSM8K和MATH基准测试中,INTUITOR在Qwen2.5-1.5B和Qwen2.5-3B模型上始终优于GRPO,凸显了其在快速初步学习上的优势。

跨任务泛化。图4展示了在MATH数据集上训练的模型在MATH500(领域内任务)和LiveCodeBench(迁移任务)上的表现变化。

无论是INTUITOR还是GRPO,模型都会先在MATH500上率先提分,而LiveCodeBench的准确率提升要到训练后期才逐渐显现。

更有意思的是,哪怕MATH500的成绩已经进入平台期,LiveCodeBench上的表现仍在继续攀升。

这说明:先在MATH数据上学到的「本行」知识,为之后迁移到代码生成任务(LiveCodeBench)提供了扎实的基础。

长推理的涌现虽然像Deepseek-R1这样的大模型通过大量强化学习(RL)实现长篇推理,但INTUITOR使较小的模型在有限数据下也能发展出结构化推理能力。

在CRUXEval-O基准(图5)上,用INTUITOR训出来的模型常常先用自然语言随意地想一番,再把结论浓缩进要求的JSON里——尽管提示里已经要求它直接用JSON推理。

同样的「先自然语言推理,后写代码」现象,也出现在LiveCodeBench上。

这种自发出现的「预推理」过程,或许正是INTUITOR能在这些评测中表现亮眼的关键。

理解LLM的涌现式长链推理能力

当LLM遇到陌生问题时,它们会从一组可能的答案分布中进行采样。

自我确定性反映了模型对其输出连贯性的内部评估。通过强化高自信度的回答,INTUITOR鼓励更具层次的推理过程,有可能提升模型对自身输出的理解能力。

研究者通过分析使用INTUITOR训练的代码模型在不同训练阶段生成的结果,来观察这一机制。

具体方法是从LiveCodeBench数据集中随机选取10道题,观察各训练阶段模型的输出演变。

图6展示了输出类型和模型准确率的变化趋势。

结果显示出了清晰的演进路径:模型首先学会生成有效的 Python 代码(体现在准确率提升和无效输出减少),随后开始发展出前置推理能力,以便更好地理解自身行为。

进一步的生成样本检查也证实:模型在训练过程中会逐步丰富其推理内容,验证了我们关于「INTUITOR鼓励模型生成自身更易理解的推理轨迹」的假设。

在线自置信防止奖励滥用

在强化学习里,如果奖励模型是静态的,策略就可能一味钻空子而不是老老实实提高能力。

为测试把「自置信」当奖励到底稳不稳定,团队做了两种设置:

  • 离线自置信:奖励来自固定的基础模型;

  • 在线自置信:奖励随策略模型一同更新。

两种情况下,我们把每次梯度更新的批大小都降到224条回答。

图7所示,大约在第100次更新后,离线设置的策略学会了「刷分」:它在每个答案后偷偷附上一道自己早已解出的额外题目,以此抬高自置信奖励。结果是:

  • 回答长度(虚线)突然飙升;

  • 验证准确率(实线)却瞬间崩盘。

在线设置下,奖励信号随着策略同步进化,策略想「骗分」就难多了,训练曲线始终平稳。

研究团队进一步拿INTUITOR和GRPO在MATH500上生成的回答,分析自置信分布(图8),并用Mann–Whitney U检验比较正确与错误答案的自置信差异。

  • 正确答案的平均自置信都显著高于错误答案。

  • INTUITOR(在线自置信):没有任何「刷分」迹象,在U检验中给出了最低p值和最大的效应量r,说明它最能用自置信区分对错,即便整体信心更高。

这些结果表明,INTUITOR的在线自置信机制不仅防止了奖励被滥用,还让模型在大规模数据集上有望保持稳健训练。

参考资料:

https://x.com/xuandongzhao/status/1927270937033883928

https://arxiv.org/abs/2505.19590

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
00后潮汕女孩逆袭成顶流,这“黑裙杀性感身材”真实?

00后潮汕女孩逆袭成顶流,这“黑裙杀性感身材”真实?

娱乐领航家
2026-03-12 19:00:07
突发!伊朗导弹袭击美英印度洋基地,距伊本土大约3800公里!此前英国允许美军使用其军事基地实施打击,伊朗回应:将行使自卫权

突发!伊朗导弹袭击美英印度洋基地,距伊本土大约3800公里!此前英国允许美军使用其军事基地实施打击,伊朗回应:将行使自卫权

每日经济新闻
2026-03-21 09:58:04
独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

犀利辣椒
2026-03-19 06:40:31
中国女子在泰国靶场被流弹击中 当地华人称一些靶场用预制板隔断 有游客遇工作人员当面修枪

中国女子在泰国靶场被流弹击中 当地华人称一些靶场用预制板隔断 有游客遇工作人员当面修枪

红星新闻
2026-03-21 15:41:19
3月21日俄乌:乌克兰无人机接连出彩

3月21日俄乌:乌克兰无人机接连出彩

山河路口
2026-03-21 19:31:41
曼城能否做到?此前仅两队在杯赛决赛中两次击败阿森纳

曼城能否做到?此前仅两队在杯赛决赛中两次击败阿森纳

懂球帝
2026-03-22 06:04:22
江苏一百岁老人,时隔60多年才突然发现:自己是中央特科重要人员

江苏一百岁老人,时隔60多年才突然发现:自己是中央特科重要人员

旧史新谭
2026-03-21 13:27:49
爆发式增长!10家算电协同成长最快企业

爆发式增长!10家算电协同成长最快企业

风风顺
2026-03-22 00:00:04
《歌手2026》阵容疯传!网友辣评:咖位还不如十年前的百变大咖秀

《歌手2026》阵容疯传!网友辣评:咖位还不如十年前的百变大咖秀

东方不败然多多
2026-03-21 10:22:45
5-1!2-2!疯狂一夜,朗斯超巴黎登顶,曼联翻车,那不勒斯4连胜

5-1!2-2!疯狂一夜,朗斯超巴黎登顶,曼联翻车,那不勒斯4连胜

足球狗说
2026-03-21 09:11:15
现在买还是再等等?记者实探手机“涨价潮”:部分机型已涨500元

现在买还是再等等?记者实探手机“涨价潮”:部分机型已涨500元

国际金融报
2026-03-20 17:12:14
日本部署导弹瞄准中国沿海,不到24小时,中国取消所有中日航班

日本部署导弹瞄准中国沿海,不到24小时,中国取消所有中日航班

战旗红
2026-03-17 12:18:55
AC米兰3-2都灵,赛后评分:AC米兰19号排第一

AC米兰3-2都灵,赛后评分:AC米兰19号排第一

侧身凌空斩
2026-03-22 02:56:48
90年代北漂群像太好哭!《冬去春来》藏着每一个追梦人的影子

90年代北漂群像太好哭!《冬去春来》藏着每一个追梦人的影子

影视小锄头
2026-03-21 00:40:03
油价一夜突变!3月20日全国油价调整后92/95汽油价格、0号柴油价格最新公布

油价一夜突变!3月20日全国油价调整后92/95汽油价格、0号柴油价格最新公布

趣味萌宠的日常
2026-03-20 11:07:44
2026扫黑再升级!中央定调严打“六霸”,一个都不放过

2026扫黑再升级!中央定调严打“六霸”,一个都不放过

另子维爱读史
2026-03-20 22:10:21
他是千年来唯一没有污点的皇帝,史书对他大有称赞,至今香火不断

他是千年来唯一没有污点的皇帝,史书对他大有称赞,至今香火不断

铭记历史呀
2026-03-14 12:50:03
到底谁在说阿娇漂亮女神?高瘦白一样都不占,本人个子很矮很幻灭

到底谁在说阿娇漂亮女神?高瘦白一样都不占,本人个子很矮很幻灭

无处遁形
2026-03-19 22:09:03
阿森纳必须卖掉这位昔日王牌!当年天赋碾压道曼,如今却成累赘

阿森纳必须卖掉这位昔日王牌!当年天赋碾压道曼,如今却成累赘

澜归序
2026-03-22 01:51:04
北京三杀招展现威力!赵睿强解,周琦无敌挡拆,斯佩尔曼末节好使

北京三杀招展现威力!赵睿强解,周琦无敌挡拆,斯佩尔曼末节好使

篮球资讯达人
2026-03-22 00:15:49
2026-03-22 07:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14777文章数 66705关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

教育
亲子
房产
公开课
军事航空

教育要闻

多切图第2讲,一个视频学会!

亲子要闻

带娃宝妈用什么素颜霜,快速提气色不用卸妆?

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版