斯坦福大学揭示RLVR技术的局限性|数学|实验|探索性|rlvr

分享至

在人工智能快速发展的今天，我们经常听说AI模型在数学竞赛、编程挑战等各类推理任务中表现出色。这些成就很大程度上要归功于一种叫做"可验证奖励强化学习"（RLVR）的训练技术。不过，这项由斯坦福大学、华盛顿大学、东京大学和日本理化学研究所的研究团队在2025年7月发表的最新研究，却为我们揭示了一个意想不到的真相：RLVR可能并没有我们想象的那么神奇。

这项研究的第一作者是斯坦福大学的吴方博士和东京大学的轩伟昊博士，通讯作者是斯坦福大学的崔艺珍教授。研究成果发表在了arXiv预印本服务器上，论文编号为arXiv:2507.14843v1。感兴趣的读者可以通过这个编号在arXiv网站上找到完整的研究论文。

为了更好地理解这项研究，我们先来聊聊什么是RLVR。想象你在教一个孩子解数学题，每当孩子做对一道题，你就给他一颗糖作为奖励。久而久之，孩子会越来越擅长解那些能得到糖果的题目类型。RLVR就是用类似的方法训练AI模型：当模型给出正确答案时，就给它"奖励"，让它学会更频繁地产生正确答案。

这种方法看起来很有效果。像DeepSeek-R1和OpenAI的o3这样的大型推理模型，都是通过RLVR训练出来的，它们在数学、编程等领域表现确实令人印象深刻。但是，研究团队想要回答一个更深层的问题：RLVR到底是真的扩展了AI的推理能力，还是只是让AI更善于使用它原本就知道的知识？

这个问题的重要性不言而喻。如果RLVR只是在"抛光"已有的知识，而不是真正开发新的推理能力，那么我们对AI未来发展的期待可能需要重新调整。更重要的是，这关系到我们如何更好地训练AI系统，让它们真正具备创新性的思维能力。

研究团队采用了理论分析和实验验证相结合的方法来探索这个问题。他们从数学原理出发，证明了RLVR在理论上存在的一些根本性限制，然后通过大量的实验来验证这些理论预测。实验涵盖了数学推理、逻辑思考、事实问答和代码生成等多个领域，使用了包括MATH、AIME、SimpleQA、LiveBench等多个基准测试。

研究结果揭示了一个被称为"无形枷锁"的现象：RLVR主要是在重新分配概率权重，让AI更倾向于输出那些它原本就有一定概率生成的正确答案，而很难让AI发现全新的解题思路。这就像是一个学生在考试前只是反复练习他已经会做的题目，而没有真正学会新的解题方法。

**一、AI训练中的"刻舟求剑"现象**

要理解RLVR的局限性，我们需要先了解AI模型是如何生成答案的。每当你向AI提出一个问题，它实际上不是在"思考"单一答案，而是在从一个巨大的可能性空间中进行选择。这个空间包含了所有可能的回答，每个回答都有一个对应的概率。

研究团队发现的第一个重要限制可以用一个简单的比喻来理解。假设你有一个装满各种颜色球的盒子，红球代表正确答案，蓝球代表错误答案。RLVR的工作方式就像是教你更频繁地从盒子里抓取红球。但问题在于，如果盒子里根本没有某种颜色的红球，那么无论你如何练习，都永远不可能抓到那种颜色的球。

这种现象被研究团队称为"支撑保持"。在数学术语中，"支撑"指的是所有那些有可能被选中的答案集合。研究团队证明了，RLVR只能在基础模型原有的支撑范围内进行优化，无法创造出全新的解题方法。

为了验证这个理论，研究人员进行了一系列精心设计的实验。他们使用了ProRL这种先进的RLVR训练方法，从DeepSeek-R1-Distill-Qwen-1.5B基础模型开始训练。这个选择很有代表性，因为ProRL采用了许多最新的技术来保持训练过程的稳定性和探索性。

实验结果证实了理论预测。研究人员将正确答案分为四类：第一类是基础模型和RLVR模型都能找到的答案（支撑保持），第二类是基础模型能找到但RLVR模型找不到的答案（支撑收缩），第三类是基础模型找不到但RLVR模型能找到的答案（支撑扩展），第四类是两个模型都找不到的答案。

在数学推理任务中，支撑保持占了绝大多数。以OlympiadBench为例，基础模型和RLVR模型共同找到了600个正确答案，而RLVR模型仅仅发现了3个新的正确答案。更令人担忧的是，RLVR模型失去了26个基础模型原本能够找到的正确答案。这种趋势在其他任务中也普遍存在。

这种现象的根本原因在于RLVR的工作机制。当模型通过随机抽样生成训练数据时，那些概率极低的正确答案很可能永远不会被抽到，因此也就无法在训练过程中得到强化。这就像是在茫茫大海中寻找一座从未见过的小岛，如果你的地图上根本没有标记这座岛的大概位置，那么你几乎不可能偶然发现它。

**二、保守的"优等生"：RLVR的变分推理本质**

为了更深入地理解RLVR的局限性，研究团队从变分推理的角度分析了RLVR的数学本质。这个分析揭示了为什么RLVR天然具有保守性。

变分推理是一种数学优化方法，其核心思想是在满足某些约束条件下，找到与目标分布最接近的概率分布。在RLVR的情况下，目标是找到一个新的模型分布，使其既能获得更高的奖励，又不偏离基础模型太远。

这个过程可以比作调整一个古老的收音机来接收更清晰的信号。你可以轻微调整各个旋钮来改善音质，但你不能完全重新组装收音机的内部结构。RLVR就像是在现有的"收音机"基础上进行微调，而不是设计一个全新的接收系统。

研究团队证明了，RLVR的最优解具有一种特殊的数学形式：新的概率分布正比于基础分布乘以奖励函数的指数。这个公式清楚地显示了为什么RLVR是保守的：它只是对原有分布进行指数加权，而不会创造出原本不存在的可能性。

更有趣的是，当RLVR不使用任何正则化约束时（即所谓的"KL-free"限制），它会退化成一个更加简单的操作：只是将基础模型在正确答案上的概率重新归一化。这就像是从一副牌中只留下红桃，然后重新洗牌，虽然每张红桃被抽到的相对概率会改变，但你永远不可能抽到黑桃。

这种数学分析不仅解释了RLVR的保守性，也揭示了它在不同参数设置下的行为。当正则化参数较小时，RLVR表现得更加保守，主要是在基础模型的高概率区域内进行微调。当正则化参数较大时，RLVR可能会有更多的探索性，但仍然无法突破基础模型的根本限制。

**三、精度与覆盖度的微妙平衡**

研究团队发现的另一个重要现象是RLVR在精度和覆盖度之间的权衡。这个发现挑战了我们对AI性能评估的传统理解。

在AI领域，有两种常见的性能评估方式：pass@1和pass@k。pass@1衡量的是模型在第一次尝试时给出正确答案的概率，而pass@k衡量的是模型在k次尝试中至少有一次给出正确答案的概率。前者反映精度，后者反映覆盖度。

传统观点认为，如果一个模型在pass@1上表现更好，那么在pass@k上也应该表现更好，只是改进的幅度可能会递减。但RLVR的表现却颠覆了这种期待。

研究结果显示，RLVR在pass@1上几乎总是优于基础模型，这证实了它在提高精度方面的有效性。但是，当k变得很大时，情况就发生了逆转。在许多情况下，基础模型的pass@k性能反而超过了RLVR模型。

这种现象可以用一个形象的比喻来理解。假设你在玩飞镖游戏，基础模型就像一个新手，虽然经常脱靶，但偶尔会意外击中一些意想不到的位置。经过RLVR训练的模型则像一个经过专业训练的选手，能够更准确地击中靶心，但很少会击中那些非常规的区域。

当你只有一次投掷机会时（pass@1），专业选手显然更有优势。但如果你有很多次投掷机会（pass@k，k很大），那么新手的随机性反而可能让他覆盖更大的区域，找到更多不同的得分方式。

这种权衡的根本原因在于RLVR会系统性地减少输出分布的熵。熵是衡量随机性或不确定性的指标，高熵意味着更多的可能性和更大的探索空间，低熵则意味着更集中和更确定的输出。

研究团队通过数学证明显示，任何RLVR更新都会降低输出分布的熵，除非奖励在所有可能输出上都是常数（这种情况实际上不存在）。这种熵的减少虽然提高了模型在已知正确方向上的表现，但同时也限制了模型探索未知区域的能力。

**四、令人意外的"局部随机性与全局确定性"现象**

研究中最有趣的发现之一是RLVR在不同层面上表现出的矛盾特性。研究团队区分了两种不同的熵：令牌级熵和答案级熵。

令牌级熵衡量的是模型在生成每个词或符号时的不确定性。这反映了模型在每一步生成过程中有多少"犹豫"。答案级熵则衡量的是最终答案的多样性，反映了模型能够产生多少种不同的完整解答。

令人惊讶的是，RLVR有时会增加令牌级熵，同时却降低答案级熵。这意味着模型在生成过程中看起来更加"不确定"，但最终却收敛到更少的不同答案上。

这种现象可以用一个生动的比喻来理解。想象你在一个复杂的迷宫中寻找出口。基础模型就像一个直觉型的探索者，它会相对直接地选择路径，虽然经常走错，但会尝试各种不同的路线，最终可能发现多个不同的出口。

而RLVR模型则像一个更加谨慎的探索者，它在每个岔路口都会更仔细地考虑各种选择，显得更加犹豫不决（高令牌级熵），但这种谨慎最终却让它收敛到少数几条被证明"安全"的路径上，减少了发现新出口的可能性（低答案级熵）。

这个发现对我们理解AI模型的行为有重要意义。它提醒我们，不能仅仅根据模型在生成过程中表现出的"不确定性"来判断它的探索能力。一个在每一步都显得很"谨慎"的模型，实际上可能在全局层面上变得更加局限。

研究团队通过详细的实验验证了这种现象。他们发现，在数学推理任务中，RLVR模型平均生成更长的推理链（这部分解释了令牌级熵的增加），但这些更长的推理过程往往导向相似的最终答案（导致答案级熵的降低）。

**五、打破无形枷锁的可能路径**

虽然研究揭示了RLVR的重要局限性，但这并不意味着它毫无价值。相反，这些发现为改进AI训练方法指出了明确的方向。

研究团队认为，要真正扩展AI的推理边界，需要结合显式的探索机制或混合策略。这些方法的核心思想是主动向那些在基础模型中概率很低但可能正确的区域"播种"概率质量。

一种可能的方法是引入探索分布。这就像是在原有的训练数据中刻意加入一些"异常"样本，迫使模型关注那些平时不会注意到的解题思路。这种方法需要精心设计，既要保证探索的有效性，又要避免引入太多噪声。

另一种思路是采用离线策略的方法。与传统RLVR只使用模型自己生成的数据不同，这种方法会使用来自其他来源的高质量推理数据。这些外部数据可能包含基础模型从未见过的解题方法，从而帮助拓展模型的推理空间。

研究还提到了一些正在发展的技术，比如探索增强的偏好优化。这些方法试图在保持RLVR优势的同时，通过显式的探索机制来克服其局限性。

值得注意的是，并不是所有任务都需要打破RLVR的局限性。对于那些有明确正确答案且解题方法相对固定的任务（如基础数学计算），RLVR的保守性实际上是一个优势，因为它能够有效地提高准确性而不会引入不必要的变化。

但对于需要创造性思维或有多种有效解决方案的任务（如创意写作、复杂问题解决、代码生成等），RLVR的局限性就变得更加明显。在这些领域，探索新的解决思路往往比优化现有方法更重要。

**六、实验验证：理论与现实的完美印证**

为了验证理论分析，研究团队进行了全面的实验评估。实验设计体现了严谨的科学态度：他们不仅测试了数学推理任务，还包括了事实问答、逻辑推理和代码生成等多个领域，确保结论的普遍性。

在数学推理方面，研究涵盖了AIME2024、AIME2025、AMC、MATH500、Minerva和OlympiadBench等多个基准。这些测试代表了从高中竞赛数学到大学级别数学的不同难度层次。结果显示，在所有这些任务中，支撑保持都是主导现象，而支撑收缩的情况比支撑扩展更为常见。

以AIME2024为例，在8192次采样的条件下，基础模型和RLVR模型共同找到了23个正确答案，RLVR模型失去了3个基础模型原本能找到的答案，但没有发现任何新的正确答案。这种模式在其他数学任务中反复出现，证实了理论预测的准确性。

在非数学推理任务中，情况稍有不同但总体趋势相似。在SimpleQA任务中，RLVR确实发现了3个新的正确答案，但同时失去了13个原有的正确答案。在SciBench中，虽然RLVR发现了10个新答案，但失去了35个原有答案。

特别值得关注的是Reasoning Gym任务的结果。这个测试集包含了认知推理、几何、图论和常见游戏等多种类型的问题。研究发现，RLVR在某些任务上确实表现出了显著的支撑扩展能力，比如在graph_color_vertex20和arc_1d任务中，RLVR达到了接近完美的pass@k性能，而基础模型即使在大量采样下也表现不佳。

但是，这种成功案例相对稀少，且主要集中在那些基础模型表现极差的任务上。对于基础模型已有一定能力的任务，RLVR更多表现出支撑收缩的特征。比如在leg_counting、family_relationships和power_function任务中，RLVR虽然在pass@1上有所改进，但在大采样数下的表现反而不如基础模型。

研究团队还进行了困惑度分析来进一步验证支撑约束。他们使用外部推理轨迹（来自DeepSeek-R1和Claude Sonnet 4）作为参考，发现RLVR在这些可能超出基础模型支撑范围的轨迹上表现出明显更高的困惑度。以AIME 2024为例，困惑度从8.76上升到14.91，这证实了RLVR无法为基础模型支撑范围之外的解决方案分配合理的概率质量。

**七、熵动力学的深层洞察**

研究团队对熵的详细分析提供了理解RLVR行为的另一个重要视角。他们对9个不同规模和训练方法的模型进行了全面的熵分析，结果显示了一些既符合预期又令人惊讶的模式。

在答案级熵方面，所有RLVR模型都表现出了一致的降低趋势，这验证了理论预测。但令牌级熵的表现则更加复杂。一些RLVR模型（如ProRL-1.5B和DAPO-32B）显示出令牌级熵的增加，而另一些（如AceReason系列）则显示出降低。

这种差异可能与不同的训练策略和模型架构有关。ProRL使用了专门的技术来维持训练过程中的探索性，这可能解释了为什么它在令牌级上保持了更高的熵。而AceReason可能采用了更激进的优化策略，导致在各个层面都出现熵的降低。

有趣的是，研究发现令牌级熵和答案级熵之间没有强的相关性。一个模型可能在生成过程中表现出很高的不确定性，但最终产生的答案却非常集中。这种现象被研究团队称为"局部随机性而非全局探索"，它提醒我们在评估模型的探索能力时需要更加谨慎。

响应长度的分析也提供了有价值的洞察。几乎所有的RLVR模型都倾向于产生更长的推理过程。在某些情况下，这种增长是显著的：比如DeepSeek-1.5B从平均16363个token缩短到ProRL-1.5B的7786个token，而在其他情况下，如Qwen2.5-32B从1247个token增长到DAPO-32B的6908个token。

这种长度变化反映了RLVR对推理风格的影响。更长的推理过程可能包含更详细的步骤说明和更多的中间检查，这有助于提高准确性，但也可能导致在错误路径上的过度投入。这再次体现了RLVR在精度和效率之间的权衡。

**八、对AI未来发展的深远影响**

这项研究的意义远远超出了对RLVR技术本身的理解。它为我们思考AI系统的能力边界和发展方向提供了重要的理论框架。

首先，研究结果提醒我们要更加谨慎地评估AI系统的"智能"水平。当我们看到一个AI模型在某项任务上表现出色时，需要区分这是因为它真正掌握了新的推理能力，还是只是更好地利用了已有的知识储备。这种区分对于理解AI的真实能力和预测其未来发展至关重要。

其次，研究强调了多样性和探索性在AI训练中的重要性。虽然RLVR在提高准确性方面很有效，但它可能以牺牲创新能力为代价。这对于那些需要创造性解决方案的应用领域（如科学研究、艺术创作、复杂问题解决等）具有重要启示。

研究还揭示了当前AI评估指标的局限性。传统上，我们主要关注pass@1等准确性指标，但这可能忽略了模型的探索能力和解决方案的多样性。研究建议，在评估AI系统时应该同时考虑精度和覆盖度，特别是在那些有多种有效解决方案的任务中。

对于AI研究者和开发者来说，这项研究提供了改进训练方法的明确指导。它建议结合显式探索机制、使用多样化的训练数据、以及采用混合训练策略来克服RLVR的局限性。这些建议为开发更全面、更有创造力的AI系统指出了方向。

从更广阔的视角看，这项研究也反映了科学研究中理论与实践相结合的重要性。研究团队不仅从数学上证明了RLVR的理论限制，还通过大量实验验证了这些预测。这种严谨的研究方法为AI领域建立了一个很好的范例。

说到底，这项研究并没有否定RLVR的价值，而是帮助我们更清楚地理解它的适用范围和局限性。对于那些有明确正确答案且解题方法相对固定的任务，RLVR仍然是一个非常有效的工具。但对于需要创新思维和多样化解决方案的任务，我们需要开发新的训练方法来补充或替代传统的RLVR。

这种理解不仅有助于改进当前的AI系统，也为未来的AI研究指出了重要的方向。正如研究团队在论文中引用的维特根斯坦的话："我的语言的界限意味着我的世界的界限。"对于AI系统来说，其训练方法的界限往往决定了其能力的界限。要真正扩展AI的智能边界，我们需要突破这些方法上的"无形枷锁"。

未来的研究可能会探索更多创新性的训练方法，比如主动学习、课程学习、元学习等技术的结合。这些方法有望在保持RLVR优势的同时，克服其在探索性和创新性方面的不足。

最终，这项研究为AI社区提供了一个重要的提醒：在追求更高性能的同时，我们也要关注AI系统的能力本质。只有深入理解这些系统的工作原理和局限性，我们才能真正推动人工智能向着更加智能、更加有用的方向发展。对于普通人来说，这项研究帮助我们以更加理性和清醒的态度看待AI的能力，既不过分夸大其智能水平，也不忽视其在特定领域的价值。

Q&A

Q1：什么是RLVR？它在AI训练中起什么作用？

A：RLVR是"可验证奖励强化学习"的简称，就像教孩子做题时给正确答案奖励糖果一样。当AI模型给出正确答案时，RLVR会给它"奖励"，让模型学会更频繁地产生正确答案。这种方法被广泛用于训练像DeepSeek-R1和OpenAI o3这样的大型推理模型。

Q2：RLVR的"无形枷锁"是什么意思？

A：研究发现RLVR只能在基础模型原有的知识范围内进行优化，无法真正创造出全新的解题方法。就像从一个只装红球和蓝球的盒子里，无论怎么练习都不可能抓到绿球一样。RLVR主要是让AI更善于使用已知的方法，而不是开发全新的推理能力。

Q3：这项研究会不会影响AI的未来发展？

A：不会阻碍发展，反而会促进更好的发展。研究揭示了当前方法的局限性，为改进指明了方向。未来的AI训练可能会结合显式探索机制、多样化数据和混合策略，既保持RLVR在准确性上的优势，又能突破其在创新能力上的限制。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.