UCB提出无需外部奖励的强化学习方法，只靠自信就能学习复杂推理|真值|算法|实验

UCB提出无需外部奖励的强化学习方法，只靠自信就能学习复杂推理

2025-05-28 19:53:40　来源: DeepTech深科技

北京举报

分享至

最近几个月来，可验证奖励强化学习（RLVR，Reinforcement Learning with Verifiable Rewards）愈发受到学界关注。相比起传统的基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback,）带来的高昂成本和人类偏见，RLVR 通过引入可自动验证的奖励信号（如数学问题的标准答案、代码测试用例的通过情况）在一定程度上降低了对人工标注的依赖，但是，其应用范围又受限于那些能够提供清晰、可验证奖励的特定领域，因此限制了模型在更广泛、更开放场景中的应用。

近日，来自美国加州大学伯克利分校（UCB，University of California，Berkeley）的一支研究团队给这个问题带来了新的解法，他们提出了一种名为 INTUITOR 的方法，使大模型能够仅凭其“内在信心”进行学习和推理，无需外部奖励或真值答案的指引。相关论文以《无需外部奖励的学习推理》（Learning to Reason without External Rewards）为题发表在预印本网站arXiv上，迅速引发了广泛关注。

挣脱外部奖励的枷锁——RLIF 与 INTUITOR 的诞生

我们知道，尽管 RLHF 在提升模型表现方面卓有成效，但由于它需要大量的人工标注，就导致其成本高昂且可能引入偏见。最近这段时间以来，研究者们转向了基于可验证奖励的强化学习，这种方法在数学问题解决和代码生成等任务中，使用可自动验证的信号（如精确答案匹配）作为奖励。RLVR 避免了学习奖励模型的复杂性，并在 DeepSeek-R1 等模型上展现了强大的推理能力。

然而，RLVR 同样也有一定的局限，它需要领域特定的验证器和“黄金标准”解决方案，例如数学问题需要专家标注答案，代码生成则需要全面的测试用例和执行环境。这些要求将 RLVR 的应用限制在精心策划的领域内，并且其以结果为导向的奖励机制也限制了模型向其他领域的迁移能力。

那么，有没有可能大模型在没有外部验证器或领域特定真值的情况下，仅仅依靠其内在信号来提升推理能力呢？

正是基于这一问题，UCB 的研究团队提出了“基于内部反馈的强化学习”（RLIF，Reinforcement Learning from Internal Feedback）这一全新框架。RLIF 的核心思想是，模型可以通过优化其自身产生的内在信号来提升性能，而无需依赖外部奖励或监督信息。这为模型在未来可能发展出超越人类评估能力的场景提供了自洽的改进机制。

在 RLIF 框架下，团队进一步提出了具体的实现方法——INTUITOR。INTUITOR 巧妙地将模型自身的“信心”（confidence），更准确地说是“自我确定性”（self-certainty），作为唯一的奖励信号。这一想法源于一个直观的观察：无论是人类还是大模型，在面对难题或缺乏相关知识时，通常会表现出较低的信心；反之，当其对某个答案或推理过程更有把握时，信心水平会更高，并且这种高信心往往与正确性相关联。

那么，如何量化模型的“自我确定性”呢？研究团队借鉴了他们在 2025 年 2 月发表的另一篇重要工作《通过自我确定性为大型语言模型提供可扩展的 N 次最佳选择》（Scalable Best-of-N Selection for Large Language Models via Self-Certainty）。在该工作中，他们提出使用模型输出 Token 的概率分布与均匀分布之间的平均 KL 散度（Kullback-Leibler divergence）来度量自我确定性。

简单来说，如果模型对其预测的下一个 Token 非常确定（即概率高度集中在少数几个 Token 上），那么其输出分布会远离均匀分布，KL 散度值会较大，代表自我确定性高。这种度量方式被证明在从多个候选答案中挑选高质量答案时非常有效，并且相比于困惑度（perplexity）或熵（entropy）等其他启发式方法，更不容易受到输出长度等因素的干扰，也更能随着候选答案数量的增加而提升其效用。

INTUITOR 将这种自我确定性评分直接作为强化学习过程中的奖励信号，并结合了现有成熟的强化学习算法，如“组相对策略优化”（Group Relative Policy Optimization, GRPO），来指导模型的策略更新。在 GRPO 算法中，通常需要外部奖励来评估一组候选输出的优劣；而在 INTUITOR 中，外部奖励被完全替换为模型自身计算出的自我确定性分数。通过这种方式，模型被激励去生成那些能让自己“更自信”的输出序列，从而在没有外部监督的情况下实现学习和推理能力的提升。

“自信”就能学会复杂推理

为了验证 INTUITOR 的有效性，研究团队进行了一系列实验。他们使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作为基础模型，在 MATH 数据集上进行训练。实验结果发现，在领域内的数学基准测试（如 GSM8K 和 MATH500）中，INTUITOR 的表现与使用外部奖励的 GRPO 相当，甚至在某些情况下（如使用 Qwen2.5-3B 模型），INTUITOR 在 GSM8K 上的准确率达到了 79.2%，略低于 GRPO 的 82.6%，但在 MATH500 上达到了 61.2%，也略低于 GRPO 的 63.6%。

研究团队还对比了一种称为 GRPO-PV 的变体方法，该方法使用多数投票（plurality voting）作为一种弱监督信号，模拟了不依赖真值答案的场景。结果显示，INTUITOR 的表现与 GRPO-PV 相当，进一步证明了其在无监督环境下的学习能力。

INTUITOR 最大的优势在于其跨任务泛化能力。当将在 MATH 数据集上训练的 Qwen2.5-3B 模型应用于代码生成任务 LiveCodeBench 时，INTUITOR 展现出了高达 65% 的相对性能提升；而在 CRUXEval-O 代码任务上，INTUITOR 也取得了 76% 的增益，显著优于仅获得 44% 增益的 GRPO 方法，后者在代码生成任务上甚至没有表现出明显提升。这或许表明，通过优化内在的自我确定性信号，模型不仅能在训练领域内取得进步，还能将学到的“元认知”能力迁移到全新的、结构迥异的任务上。

除了在具体任务上的性能提升，研究还揭示了 INTUITOR 对模型行为的一些深层影响。例如，INTUITOR 能够显著提升模型的指令遵循能力，在 AlpacaEval 这类评估指令遵循度的基准上取得了比 GRPO 更好的成绩。这意味着模型不仅学会了如何“自信地”解决问题，还学会了如何更好地理解和执行指令。

更有意思的是，研究团队观察到，经过 INTUITOR 训练的模型，即使在没有明确要求的情况下，也会自发地生成更长的、更具结构化的推理链条。例如，在处理 CRUXEval-O 任务时，模型会先进行一番自然语言形式的“自由思考”，然后才将最终答案组织成指令所要求的 JSON 格式。

在代码生成任务中，也观察到了类似的“代码前自然语言推理”现象。这种行为表明，为了提升自身的“确定感”，模型倾向于将复杂问题分解，并进行更详尽的思考，这恰恰是复杂推理能力的重要体现。此外，INTUITOR 训练的模型在学习初期就展现出比 GRPO 更快的学习速度，这可能得益于自我确定性这种连续且过程感知的内在奖励信号，它能引导模型探索更有效的学习轨迹。

另一个重要的发现是，INTUITOR 所采用的在线自我确定性机制（即奖励信号随着模型策略的进化而动态调整）能够有效防止“奖励利用”（reward hacking）问题。在强化学习中，如果奖励模型是静态的，策略模型很容易找到奖励模型的漏洞，并生成一些表面上得分很高但实际质量很差的输出。实验对比显示，如果使用一个固定的（离线的）自我确定性打分器，模型很快就会学会通过生成冗余内容等方式来“欺骗”打分器，导致性能崩溃。而 INTUITOR 的在线机制则避免了这一问题，保证了训练的稳定性和鲁棒性。

迈向更自主的 AI

论文作者之一、UCB 博士后研究员 Xuandong Zhao 在其社交媒体上分享了这项研究的历程。

Zhao 在其推文中提到，这项研究的种子始于去年秋天，当时本科生 Zhewei Kang 主动联系他希望合作开展研究。他们从两个关键观察出发：一是在考试中，人们对自己有信心的题目往往回答得更准确；二是大模型是否也能展现出这种“信心约等于正确性”的模式？这启发了他们对“自我确定性”这一概念的探索。

他们发现，现有的启发式方法如熵和困惑度在衡量模型信心方面存在输出长度敏感、存在偏见以及随样本量增加扩展性差等问题。于是，他们提出了一个关键洞见：衡量每个 Token 的输出分布与均匀分布的距离，即前述的 KL 散度，这构成了“自我确定性”度量的基础，并催生了他们 2 月份关于“通过自我确定性实现可扩展的 Best-of-N 选择”的论文。INTUITOR 正是这一系列研究思路的自然延伸和深化，将自我确定性从答案选择标准提升为驱动整个强化学习过程的内在奖励。

如果这一方法确实有效，它或将为训练更自主、更通用的 AI 系统提供一条极具潜力的新路径。通过摆脱对外部奖励和人类监督的强依赖，INTUITOR 有望大幅降低训练成本，并使 AI 能够在缺乏先验知识或难以获得反馈的新领域中进行探索和学习。有网友就评论道：“如果这行得通，我们将在其他领域看到与编程和数学中相同类型的进步。”

其次，INTUITOR 的成功表明，预训练的大模型可能拥有比我们先前认知中更为丰富的隐性行为先验。这些先验知识和能力可以通过恰当的内在激励机制被“解锁”和“塑造”，从而展现出惊人的推理和泛化能力。

再者，该研究提出的 RLIF 框架和自我确定性作为内在奖励的思路，也可能对于未来构建能够进行自我改进、甚至可能超越人类能力的 AI 系统具有重要启示。当 AI 系统发展到其能力边界超出人类评估范围时，基于内在一致性和自我确定性的学习机制将变得至关重要。

不过，目前的实验主要集中在相对较小的模型和数据集上，未来需要将 INTUITOR 扩展到更大规模的基础模型和更多样化的真实世界数据上进行验证。例如，有研究者担心“奖励利用”和“模型崩溃”或许会在更大规模模型上可能成为潜在的障碍。

事实上，团队在研究中就发现了将 INTUITOR 扩展到更大模型（Qwen2.5-7B 和 Qwen2.5-14B）时会遇到新的问题。他们提到，最初的训练方案在较大模型上会引发严重的行为崩溃。通过简化系统提示、调整学习率和增加采样响应数量等方式，学习过程方得到了初步的稳定（团队强调这些设置是“首次的、未经调整的尝试”，而非全面的超参数优化）。

但如果为了防止更大模型的奖励利用，最终仍需依赖带有真值验证的复杂超参数调整，那么 INTUITOR 方法在“无需外部奖励”方面的核心优势就可能会被削弱。

因此，如何在扩展到更大模型时，继续保持这种内在奖励机制的有效性和免监督特性，将是未来研究中一个值得关注的重要方向。

参考资料：

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.