网易首页 > 网易号 > 正文 申请入驻

UCB提出无需外部奖励的强化学习方法,只靠自信就能学习复杂推理

0
分享至

最近几个月来,可验证奖励强化学习(RLVR,Reinforcement Learning with Verifiable Rewards)愈发受到学界关注。相比起传统的基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback,)带来的高昂成本和人类偏见,RLVR 通过引入可自动验证的奖励信号(如数学问题的标准答案、代码测试用例的通过情况)在一定程度上降低了对人工标注的依赖,但是,其应用范围又受限于那些能够提供清晰、可验证奖励的特定领域,因此限制了模型在更广泛、更开放场景中的应用。

近日,来自美国加州大学伯克利分校(UCB,University of California,Berkeley)的一支研究团队给这个问题带来了新的解法,他们提出了一种名为 INTUITOR 的方法,使大模型能够仅凭其“内在信心”进行学习和推理,无需外部奖励或真值答案的指引。相关论文以《无需外部奖励的学习推理》(Learning to Reason without External Rewards)为题发表在预印本网站arXiv上,迅速引发了广泛关注。

挣脱外部奖励的枷锁——RLIF 与 INTUITOR 的诞生

我们知道,尽管 RLHF 在提升模型表现方面卓有成效,但由于它需要大量的人工标注,就导致其成本高昂且可能引入偏见。最近这段时间以来,研究者们转向了基于可验证奖励的强化学习,这种方法在数学问题解决和代码生成等任务中,使用可自动验证的信号(如精确答案匹配)作为奖励。RLVR 避免了学习奖励模型的复杂性,并在 DeepSeek-R1 等模型上展现了强大的推理能力。

然而,RLVR 同样也有一定的局限,它需要领域特定的验证器和“黄金标准”解决方案,例如数学问题需要专家标注答案,代码生成则需要全面的测试用例和执行环境。这些要求将 RLVR 的应用限制在精心策划的领域内,并且其以结果为导向的奖励机制也限制了模型向其他领域的迁移能力。

那么,有没有可能大模型在没有外部验证器或领域特定真值的情况下,仅仅依靠其内在信号来提升推理能力呢?

正是基于这一问题,UCB 的研究团队提出了“基于内部反馈的强化学习”(RLIF,Reinforcement Learning from Internal Feedback)这一全新框架。RLIF 的核心思想是,模型可以通过优化其自身产生的内在信号来提升性能,而无需依赖外部奖励或监督信息。这为模型在未来可能发展出超越人类评估能力的场景提供了自洽的改进机制。

在 RLIF 框架下,团队进一步提出了具体的实现方法——INTUITOR。INTUITOR 巧妙地将模型自身的“信心”(confidence),更准确地说是“自我确定性”(self-certainty),作为唯一的奖励信号。这一想法源于一个直观的观察:无论是人类还是大模型,在面对难题或缺乏相关知识时,通常会表现出较低的信心;反之,当其对某个答案或推理过程更有把握时,信心水平会更高,并且这种高信心往往与正确性相关联。

那么,如何量化模型的“自我确定性”呢?研究团队借鉴了他们在 2025 年 2 月发表的另一篇重要工作《通过自我确定性为大型语言模型提供可扩展的 N 次最佳选择》(Scalable Best-of-N Selection for Large Language Models via Self-Certainty)。在该工作中,他们提出使用模型输出 Token 的概率分布与均匀分布之间的平均 KL 散度(Kullback-Leibler divergence)来度量自我确定性。

简单来说,如果模型对其预测的下一个 Token 非常确定(即概率高度集中在少数几个 Token 上),那么其输出分布会远离均匀分布,KL 散度值会较大,代表自我确定性高。这种度量方式被证明在从多个候选答案中挑选高质量答案时非常有效,并且相比于困惑度(perplexity)或熵(entropy)等其他启发式方法,更不容易受到输出长度等因素的干扰,也更能随着候选答案数量的增加而提升其效用。

INTUITOR 将这种自我确定性评分直接作为强化学习过程中的奖励信号,并结合了现有成熟的强化学习算法,如“组相对策略优化”(Group Relative Policy Optimization, GRPO),来指导模型的策略更新。在 GRPO 算法中,通常需要外部奖励来评估一组候选输出的优劣;而在 INTUITOR 中,外部奖励被完全替换为模型自身计算出的自我确定性分数。通过这种方式,模型被激励去生成那些能让自己“更自信”的输出序列,从而在没有外部监督的情况下实现学习和推理能力的提升。

“自信”就能学会复杂推理

为了验证 INTUITOR 的有效性,研究团队进行了一系列实验。他们使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作为基础模型,在 MATH 数据集上进行训练。实验结果发现,在领域内的数学基准测试(如 GSM8K 和 MATH500)中,INTUITOR 的表现与使用外部奖励的 GRPO 相当,甚至在某些情况下(如使用 Qwen2.5-3B 模型),INTUITOR 在 GSM8K 上的准确率达到了 79.2%,略低于 GRPO 的 82.6%,但在 MATH500 上达到了 61.2%,也略低于 GRPO 的 63.6%。

研究团队还对比了一种称为 GRPO-PV 的变体方法,该方法使用多数投票(plurality voting)作为一种弱监督信号,模拟了不依赖真值答案的场景。结果显示,INTUITOR 的表现与 GRPO-PV 相当,进一步证明了其在无监督环境下的学习能力。

INTUITOR 最大的优势在于其跨任务泛化能力。当将在 MATH 数据集上训练的 Qwen2.5-3B 模型应用于代码生成任务 LiveCodeBench 时,INTUITOR 展现出了高达 65% 的相对性能提升;而在 CRUXEval-O 代码任务上,INTUITOR 也取得了 76% 的增益,显著优于仅获得 44% 增益的 GRPO 方法,后者在代码生成任务上甚至没有表现出明显提升。这或许表明,通过优化内在的自我确定性信号,模型不仅能在训练领域内取得进步,还能将学到的“元认知”能力迁移到全新的、结构迥异的任务上。

除了在具体任务上的性能提升,研究还揭示了 INTUITOR 对模型行为的一些深层影响。例如,INTUITOR 能够显著提升模型的指令遵循能力,在 AlpacaEval 这类评估指令遵循度的基准上取得了比 GRPO 更好的成绩。这意味着模型不仅学会了如何“自信地”解决问题,还学会了如何更好地理解和执行指令。

更有意思的是,研究团队观察到,经过 INTUITOR 训练的模型,即使在没有明确要求的情况下,也会自发地生成更长的、更具结构化的推理链条。例如,在处理 CRUXEval-O 任务时,模型会先进行一番自然语言形式的“自由思考”,然后才将最终答案组织成指令所要求的 JSON 格式。

在代码生成任务中,也观察到了类似的“代码前自然语言推理”现象。这种行为表明,为了提升自身的“确定感”,模型倾向于将复杂问题分解,并进行更详尽的思考,这恰恰是复杂推理能力的重要体现。此外,INTUITOR 训练的模型在学习初期就展现出比 GRPO 更快的学习速度,这可能得益于自我确定性这种连续且过程感知的内在奖励信号,它能引导模型探索更有效的学习轨迹。

另一个重要的发现是,INTUITOR 所采用的在线自我确定性机制(即奖励信号随着模型策略的进化而动态调整)能够有效防止“奖励利用”(reward hacking)问题。在强化学习中,如果奖励模型是静态的,策略模型很容易找到奖励模型的漏洞,并生成一些表面上得分很高但实际质量很差的输出。实验对比显示,如果使用一个固定的(离线的)自我确定性打分器,模型很快就会学会通过生成冗余内容等方式来“欺骗”打分器,导致性能崩溃。而 INTUITOR 的在线机制则避免了这一问题,保证了训练的稳定性和鲁棒性。

迈向更自主的 AI

论文作者之一、UCB 博士后研究员 Xuandong Zhao 在其社交媒体上分享了这项研究的历程。

Zhao 在其推文中提到,这项研究的种子始于去年秋天,当时本科生 Zhewei Kang 主动联系他希望合作开展研究。他们从两个关键观察出发:一是在考试中,人们对自己有信心的题目往往回答得更准确;二是大模型是否也能展现出这种“信心约等于正确性”的模式?这启发了他们对“自我确定性”这一概念的探索。

他们发现,现有的启发式方法如熵和困惑度在衡量模型信心方面存在输出长度敏感、存在偏见以及随样本量增加扩展性差等问题。于是,他们提出了一个关键洞见:衡量每个 Token 的输出分布与均匀分布的距离,即前述的 KL 散度,这构成了“自我确定性”度量的基础,并催生了他们 2 月份关于“通过自我确定性实现可扩展的 Best-of-N 选择”的论文。INTUITOR 正是这一系列研究思路的自然延伸和深化,将自我确定性从答案选择标准提升为驱动整个强化学习过程的内在奖励。

如果这一方法确实有效,它或将为训练更自主、更通用的 AI 系统提供一条极具潜力的新路径。通过摆脱对外部奖励和人类监督的强依赖,INTUITOR 有望大幅降低训练成本,并使 AI 能够在缺乏先验知识或难以获得反馈的新领域中进行探索和学习。有网友就评论道:“如果这行得通,我们将在其他领域看到与编程和数学中相同类型的进步。”

其次,INTUITOR 的成功表明,预训练的大模型可能拥有比我们先前认知中更为丰富的隐性行为先验。这些先验知识和能力可以通过恰当的内在激励机制被“解锁”和“塑造”,从而展现出惊人的推理和泛化能力。

再者,该研究提出的 RLIF 框架和自我确定性作为内在奖励的思路,也可能对于未来构建能够进行自我改进、甚至可能超越人类能力的 AI 系统具有重要启示。当 AI 系统发展到其能力边界超出人类评估范围时,基于内在一致性和自我确定性的学习机制将变得至关重要。

不过,目前的实验主要集中在相对较小的模型和数据集上,未来需要将 INTUITOR 扩展到更大规模的基础模型和更多样化的真实世界数据上进行验证。例如,有研究者担心“奖励利用”和“模型崩溃”或许会在更大规模模型上可能成为潜在的障碍。

事实上,团队在研究中就发现了将 INTUITOR 扩展到更大模型(Qwen2.5-7B 和 Qwen2.5-14B)时会遇到新的问题。他们提到,最初的训练方案在较大模型上会引发严重的行为崩溃。通过简化系统提示、调整学习率和增加采样响应数量等方式,学习过程方得到了初步的稳定(团队强调这些设置是“首次的、未经调整的尝试”,而非全面的超参数优化)。

但如果为了防止更大模型的奖励利用,最终仍需依赖带有真值验证的复杂超参数调整,那么 INTUITOR 方法在“无需外部奖励”方面的核心优势就可能会被削弱。

因此,如何在扩展到更大模型时,继续保持这种内在奖励机制的有效性和免监督特性,将是未来研究中一个值得关注的重要方向。

参考资料:

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
本泽马加盟利雅得新月!C罗一度阻挠交易

本泽马加盟利雅得新月!C罗一度阻挠交易

体坛周报
2026-02-03 07:17:59
沪媒记者社媒暗示上海海港近期引进“希望”球员

沪媒记者社媒暗示上海海港近期引进“希望”球员

杨仔述
2026-02-03 06:12:22
刚刚,SpaceX完成对xAI的收购,合并估值1.25万亿美元!马斯克通告信全文

刚刚,SpaceX完成对xAI的收购,合并估值1.25万亿美元!马斯克通告信全文

问问马斯克AskMusk
2026-02-03 07:50:32
中共中央、国务院:严守北京市常住人口总量上限,加快北京平原新城承接中心城区适宜功能和疏解人口

中共中央、国务院:严守北京市常住人口总量上限,加快北京平原新城承接中心城区适宜功能和疏解人口

界面新闻
2026-02-02 17:27:18
中央电视台直播录播2026年2月2日至8日乒乓球比赛

中央电视台直播录播2026年2月2日至8日乒乓球比赛

乒乓球球
2026-02-02 07:15:27
大衣退货丢6000元奔驰钥匙!女子监控铁证在手,知情人爆出内幕!

大衣退货丢6000元奔驰钥匙!女子监控铁证在手,知情人爆出内幕!

石辰搞笑日常
2026-02-02 14:53:21
一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

黄娜老师
2026-02-01 13:45:43
普京签署命令,2026至2027年将举办“中俄教育年”

普京签署命令,2026至2027年将举办“中俄教育年”

界面新闻
2026-02-02 22:06:36
谷爱凌意外脑出血!休克5分钟癫痫发作,母亲崩溃:差点失去她

谷爱凌意外脑出血!休克5分钟癫痫发作,母亲崩溃:差点失去她

可乐谈情感
2026-02-02 15:56:57
随着桑德兰3-0,英超最新积分榜出炉:曼联手握争欧冠席位主动权

随着桑德兰3-0,英超最新积分榜出炉:曼联手握争欧冠席位主动权

侧身凌空斩
2026-02-03 06:15:44
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

男人切记:搞定女人的“千古定律”,只有一条,屡试不爽!

云端小院
2026-01-31 08:59:12
郑丽文8小时霸气拿回56亿现金,还让中天复台,蓝营终于起死回生

郑丽文8小时霸气拿回56亿现金,还让中天复台,蓝营终于起死回生

头条爆料007
2026-02-02 07:10:27
韩国股市熔断!

韩国股市熔断!

证券时报e公司
2026-02-02 19:05:01
春运大巴逆袭封神,干翻高铁的,是数亿打工人回家刚需

春运大巴逆袭封神,干翻高铁的,是数亿打工人回家刚需

老特有话说
2026-02-02 22:26:24
老夫少妻扁鹊难医!嫁大20岁徐威的张怡宁,终是逃不过残酷现实

老夫少妻扁鹊难医!嫁大20岁徐威的张怡宁,终是逃不过残酷现实

素衣读史
2026-02-02 16:43:21
具俊晔连发3条动态,晒亲笔手写信,大S全部亲人集体合影公开

具俊晔连发3条动态,晒亲笔手写信,大S全部亲人集体合影公开

素素娱乐
2026-02-02 21:13:55
中国最新富豪榜出炉,网友追问:为何刘强东榜上无名?

中国最新富豪榜出炉,网友追问:为何刘强东榜上无名?

补两刀
2026-02-02 13:22:44
日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本综艺有多变态?看完下面这些,保证你菊花一紧!

日本窗
2026-02-02 17:28:30
黄磊19岁女儿晒美国留学生活,素颜穿着得体,和黑人男生保持距离

黄磊19岁女儿晒美国留学生活,素颜穿着得体,和黑人男生保持距离

李健政观察
2026-02-02 16:18:55
2026-02-03 10:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16213文章数 514585关注度
往期回顾 全部

科技要闻

马斯克官宣,SpaceX并购xAI,打造天基算力

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

头条要闻

克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

“精准查人”黑产链条遭查

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

数码
游戏
健康
教育
军事航空

数码要闻

苹果Vision Pro头显发售2周年现状:原生应用约3000款

印尼恐怖游戏《小镇惊魂3》截图 性感女主亮相

耳石症分类型,症状大不同

教育要闻

《陪班班摆阵》

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版