训练样本在大型语言模型中进行推理的强化学习|方差|算法|拟合|鲁棒性|深度思考模型

分享至

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

训练样本在大型语言模型中进行推理的强化学习

https://arxiv.org/pdf/2504.20571

摘要

我们证明，使用可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）在仅用一个训练样本（1-shot RLVR）的情况下，能够有效激发大语言模型（LLMs）的数学推理能力。将RLVR应用于基础模型Qwen2.5-Math-1.5B，我们发现仅用一个样本就可使模型在MATH500上的性能从36.0%提升至73.6%，并在六个常见的数学推理基准测试上的平均性能从17.6%提升至35.7%。这一结果与使用包含1200个样本的DeepScaleR子集（包含前述示例）所取得的性能相当（MATH500：73.6%，平均：35.9%）。此外，仅使用两个样本的RLVR甚至略微超过了这些结果（MATH500：74.8%，平均：36.6%）。在多种模型（Qwen2.5-Math-7B、Llama3.2-3B-Instruct、DeepSeek-R1-Distill-Qwen-1.5B）、强化学习算法（GRPO和PPO）以及不同数学示例（其中许多示例作为单一样本训练时，在MATH500上带来约30%或更高的提升）上，均观察到类似的显著改进。此外，我们在1-shot RLVR过程中发现了若干有趣现象，包括跨领域泛化、自我反思频率的增加，以及即使训练准确率已达到饱和后测试性能仍持续提升的现象，我们将后者称为“饱和后泛化”（post-saturation generalization）。我们进一步验证，1-shot RLVR的有效性主要源于策略梯度损失，从而将其与“顿悟”（grokking）现象区分开来。我们还展示了促进探索（例如，通过引入适当系数的熵损失）在1-shot RLVR训练中的关键作用。作为附加发现，我们观察到，仅使用熵损失而无需任何结果奖励，即可使Qwen2.5-Math-1.5B在MATH500上的性能提升27.4%。我们还进一步讨论了与格式纠正、标签鲁棒性以及提示修改相关的观察结果。这些发现有望启发未来关于RLVR数据效率的研究，并促使人们重新审视近期在RLVR方面的进展及其内在机制。我们的代码、模型和数据已在 https://github.com/ypwang61/One-Shot-RLVR 开源。

1 引言

近年来，在提升大语言模型（LLMs）的推理能力方面取得了显著进展，包括OpenAI-o1 [1]、DeepSeek-R1 [2] 和 Kimi-1.5 [3]，尤其是在复杂的数学任务上。推动这些进展的关键方法之一是“基于可验证奖励的强化学习”（Reinforcement Learning with Verifiable Reward, RLVR）[4, 5, 2, 3]，该方法通常在大语言模型上应用强化学习，并使用基于规则的结果奖励（例如，一个二元奖励，表示模型对数学问题最终答案的正确性）。在RLVR中已观察到若干引人注目的经验现象，例如特定认知行为（如自我反思）的激发或增强 [6]，以及在各种下游任务中的泛化能力提升 [5, 2, 3]。

目前，大量研究工作集中于改进强化学习算法（如PPO [7] 和 GRPO [8]），以进一步提升RLVR的性能和稳定性 [9–16]。相比之下，RLVR的数据相关方面仍相对缺乏探索。尽管已有研究尝试构建高质量的数学推理数据集 [17, 18, 11]，但对数据在RLVR中具体作用的深入研究仍较为有限。因此，一些关键问题仍未解决：究竟需要多少数据？哪些数据最有效？训练数据的质量和数量与观察到的经验现象（如自我反思和强泛化能力）之间有何关系？与此问题最相关的研究是LIMR [19]，该研究提出了一种称为“学习影响度量”（Learning Impact Measurement, LIM）的指标，用于评估训练样本的有效性。通过LIM得分，他们将训练样本数量减少六倍的同时仍保持了模型性能。然而，该研究并未探索RLVR训练数据集可被压缩到何种极端程度。

受此启发，本文重点研究以下科学问题：“在保持与使用完整数据集相当的性能的前提下，RLVR的训练数据集最多可以减少到什么程度？”

我们通过实验发现，令人惊讶的是，RLVR的训练数据集可以减少至仅一个样本！这一发现支持了近期的观点：基础模型本身已具备较强的推理能力 [13, 20, 6, 21]，并进一步表明，仅用一个样本就足以显著提升基础模型的数学性能。我们将这种设置称为“单样本RLVR”（1-shot RLVR）。我们的主要贡献与发现总结如下：

我们发现，仅选择一个特定样本作为训练数据，即可达到与包含该样本的1200个样本的DeepScaleR子集（DSR-sub）相当的下游性能。具体而言，该方法使Qwen2.5-Math-1.5B模型在MATH500上的准确率从36.0%提升至73.6%，在六个数学推理基准测试上的平均性能从17.6%提升至35.7%（见图1）。值得注意的是，这两个样本对基础模型而言相对简单，模型无需训练即可以较大概率正确解答（见第3.2.1节）。此外，使用数学样例进行1-shot RLVR还能提升模型在非数学推理任务上的表现，甚至优于使用完整数据集的RLVR（见表1）。
我们验证了1（少）样本RLVR在不同基础模型（Qwen2.5-Math-1.5/7B、Llama3.2-3B-Instruct）、从长链式思维（Chain-of-Thought, CoT）数据蒸馏出的模型（DeepSeek-R1-Distill-Qwen-1.5B），以及不同强化学习算法（GRPO、PPO）上的有效性。
我们揭示了1-shot RLVR中一个引人注目的现象：“饱和后泛化”（post-saturation generalization）。具体表现为：模型在单个训练样本上的训练准确率迅速接近100%，但其在测试集上的准确率仍持续提升。此外，尽管仅使用一个训练样本，过拟合直到约1400个训练步之后才发生。即使在过拟合后，模型对训练样本的推理输出变为混杂着正确解的、难以理解的多语言乱码，其测试性能依然保持强劲，且对测试样本的推理输出仍保持人类可读。
此外，我们展示了以下现象：（1）在完整数据集中的几乎所有数学样例上，单独使用每个样例进行1-shot RLVR均是可行的。我们还在附录C.2.3中讨论了其与“格式纠正”（format correction）的关联。（2）1-shot RLVR支持跨领域泛化：在某一领域（如几何）的单个样本上训练，通常能提升模型在其他领域（如代数、数论）的性能。（3）随着1-shot RLVR训练的进行，模型对训练样本的响应长度以及在下游任务中使用自我反思类词汇的频率均有所增加。
通过消融实验，我们证明1-shot RLVR的性能提升主要源于策略梯度损失，这与高度依赖权重衰减等正则化方法的“顿悟”（grokking）现象有本质区别。此外，我们强调在模型输出中促进多样化探索的重要性，表明加入适当系数的熵损失可进一步提升性能。
最后，我们发现，仅使用熵损失而无需任何结果奖励，即可使Qwen2.5-Math-1.5B在MATH500上的性能提升27%。在Qwen2.5-Math-7B和Llama-3.2-3B-Instruct上也观察到类似提升。我们还在附录C.2中讨论了RLVR中的标签鲁棒性和提示修改问题。

2 预备知识

RL 损失函数。 在本文中，除非另有说明，我们采用 GRPO [8, 2] 作为大语言模型（LLMs）的强化学习（RL）算法。我们在下面简要介绍损失函数中的三个主要组成部分，并在附录B.1中提供更多信息。

(1) 策略梯度损失（Policy gradient loss）： 它鼓励模型生成具有更高奖励的响应，并根据其组归一化优势分配权重。因此，优于平均值的解决方案会被强化，而较差的解决方案则受到惩罚。由于我们专注于数学问题，奖励被定义为二元值（0-1），仅当模型响应的结果正确匹配真实答案时，才会获得奖励1。这里不包括格式奖励，但我们在附录C.2.3中讨论了相关内容。

(2) KL散度损失（KL divergence loss）：通过衡量当前模型输出与参考模型输出之间的分布差异，有助于保持模型整体的语言质量。

(3) 熵损失（Entropy loss）[22]：以负系数形式引入，鼓励每个token的熵值更高，从而促进模型探索，生成更多样化的推理路径。我们注意到，熵损失对于GRPO训练并非严格必需，但在我们的实验中所使用的verl [22] 训练流程中默认包含该损失项。其对1-shot RLVR的影响将在第4.1节中进一步讨论。

数据选择：历史方差得分。为了探索在多大程度上可以减少RLVR训练数据集，我们提出了一种简单的训练样本排序方法。我们首先在完整数据集上使用RLVR训练模型E个轮次。然后，对于每个样本i ∈ [N] = {1, ..., N}，我们可以得到一个历史训练准确率列表Li = [si,1, ..., si,E]，该列表记录了该样本在每个训练轮次中的平均训练准确率。注意到一些先前的研究表明，奖励信号的方差[23]对强化学习训练至关重要，因此我们直接根据训练准确率的历史方差对数据进行排序，而该方差与奖励直接相关。

然后，我们根据这一简单的排名标准选择示例。例如，通过Qwen2.5-Math-1.5B的历史方差得分识别出的π1，在1-shot RLVR（第3.2.3节、3.3节）中表现良好。我们还从{π1, ..., π17}中选择了来自不同领域的其他示例，并在1-shot RLVR下对它们进行了评估（表3），发现π13同样表现出色。重要的是，我们强调，这一标准并不一定是为1-shot RLVR选择单个示例的最佳标准。实际上，表3表明，许多示例（包括那些历史方差中等或较低的示例）在作为RLVR中的单个训练示例时，也能在MATH500上单独实现大约30%或更高的提升。这表明可能存在一种与具体数据选择方法无关的普遍现象。

3 实验

3.1 实验设置

模型。我们默认在 Qwen2.5-Math-1.5B [24, 25] 上进行实验，同时在第 3.3 节中验证了 Qwen2.5-Math-7B [25]、Llama-3.2-3B-Instruct [26] 和 DeepSeek-R1-DistillQwen-1.5B [2] 在单样本（1-shot）RLVR 中的有效性。我们还在附录 C.1.2 中包含了 Qwen2.5-1.5B 和 Qwen2.5-Math-1.5B-Instruct 的结果。

数据集。由于资源限制，我们从 DeepScaleR-Preview-Dataset [18] 中随机选取了一个包含 1209 个样例的子集作为我们的样本池（“DSR-sub”）。对于数据选择（第 2 节），如第 2 节所述，我们首先对 Qwen2.5-Math-1.5B 模型进行 500 步训练，然后计算每个样例的历史方差得分（公式 1）及其对应的排序（公式 2）。为避免歧义，我们在所有实验中均不更改 {πi}₁₂₀₉ᵢ₌₁ 与样例之间的对应关系，即所有样例的排序均基于 Qwen2.5-Math-1.5B 的历史方差得分。我们还使用 MATH [27] 训练集（包含 7500 个实例）作为另一个数据集进行完整的 RLVR 实验以作对比。为了实现单样本或少样本的 RLVR，我们将选中的数据复制，直到达到训练批次大小（例如 128），并将其存储为一个新的数据集。更多细节见附录 B.2。

训练。如第 2 节所述，我们采用 verl [22] 的训练流程，默认情况下，KL 散度损失和熵损失的系数分别为 β = 0.001 和 α = −0.001。vLLM [28] 的训练 rollout 温度设置为 0.6。训练批次大小和小批次大小均为 128，我们对每个提示（prompt）采样 8 个响应（response）。因此，每次 rollout 步骤包含 8 次梯度更新。默认情况下，最大提示长度为 1024，最大响应长度为 3072，考虑到 Qwen2.5-Math-1.5B/7B 的上下文长度为 4096。更多训练细节见附录 B.4。

评估。我们使用官方的 Qwen2.5-Math 评估流程 [25] 进行评估。本文采用了六个广泛使用的复杂数学推理基准：MATH500 [27, 29]、AIME 2024 [30]、AMC 2023 [31]、Minerva Math [32]、OlympiadBench [33] 和 AIME 2025 [30]。我们还考虑了非数学推理任务 ARC-Easy 和 ARC-Challenge [34]。有关基准的更多细节见附录 B.3。对于仅包含 30 或 40 道题的 AIME 2024、AIME 2025 和 AMC 2023，我们重复测试集 8 次以提高评估稳定性，并在温度为 0.6 的情况下评估模型，最终报告平均的 pass@1 性能（avg@8）。而对于其他三个数学基准，我们设置温度为 0。更多评估细节见附录 B.5。

3.2 单样本/少样本 RLVR 的观察

如图 1 所示，我们发现使用 1 个或 2 个样例的 RLVR 可以达到与使用数千个样例相当的性能；表 1 进一步表明，使用这些数学样例的单样本（或少样本）RLVR 能够在非数学推理任务上实现更好的泛化能力（更多细节见附录 C.1）。为了更好地理解这一现象，本节将对单样本 RLVR 进行详细分析。

3.2.1 π1的剖析：一个并不太难的问题

3.2.2 饱和后泛化：超越训练准确率饱和的持续泛化

接着，我们展示了单样本 RLVR 中一个有趣的现象。如图 2 所示，由于我们只有一个训练样本，π₁ 和 π₁₃ 的训练准确率在第 100 步之前迅速达到饱和是可以预见的。然而，模型在测试集上的性能仍在持续提升：使用 π₁ 的单样本 RLVR 从第 100 步到第 1540 步平均提升了 3.4%，而使用 π₁₃ 则从第 500 步到第 2000 步平均提升了 9.9%。我们将这一现象称为“饱和后泛化”（post-saturation generalization）。

此外，目前在使用完整数据集 DSR-sub 进行全集 RLVR 时无法观察到这一现象，因为在训练准确率尚未收敛之前，测试性能已开始下降。

此外，我们在图 3 中对比了训练和评估阶段的模型输出。令人惊讶的是，我们发现，在单样本 RLVR 的最终阶段，模型通过在其推理输出中混入正确的计算过程并生成冗长且难以理解的多语言内容，从而对唯一的训练样本产生了过拟合。然而，测试阶段的输出仍然正常，并保持较高的准确率，这表明即使模型已过拟合训练样本，“饱和后泛化”现象依然存在。特别地，RLVR 中的过拟合出现得非常晚（π₁ 在 1400 步之后，π₁₃ 在 1800 步之后）。考虑到每一步每个样本被采样 1024 次，单个训练样本直到经历数百万次 rollout 后才发生过拟合。更多分析见第 4.1 节。

3.2.3 单样本 RLVR 对许多样例均有效，并能在多个领域带来提升

在本节中，我们研究了不同的数据在单样本强化学习（RL）中的表现是否存在差异，以及来自特定领域的单个训练样例的单样本 RLVR 是否有助于模型在其他领域更好地泛化。我们选取了具有高历史方差（π₁, ..., π₁₇）、中等历史方差（π₆₀₅, π₆₀₆）和低历史方差（π₁₂₀₁, ..., π₁₂₀₉）（见公式 1）且来自不同主题的样例。我们根据问题的特征确定其类别。表 3 展示了这些样例在 MATH500 基准上整体及各子类别的详细性能表现。更多性能曲线见附录 C.1 中的图 7。

我们观察到以下几点：（1）单样本 RLVR 能够提升 MATH500 中所有不同领域的性能，而不仅限于训练样例所属的特定领域。（2）许多样例都能从单样本 RLVR 中获益。除了一些使模型难以获得奖励的样例（如 π₁₂₀₇ 和 π₁₂₀₈）外，几乎所有样例都能带来 ≥30% 的性能提升。我们进一步表明，某些样例在 RLVR 中的提升可能主要来源于对初始模型输出格式的修正（见附录 C.2.3 和 C.2.5），我们还发现，全集 RLVR 的很大一部分提升也归因于格式修正；但像 π₁ 这样的样例仍能在格式修正之外实现明显的额外提升。（3）尽管如此，不同样例在单样本 RLVR 中仍存在性能差距，这可能为未来的数据选择方法提供启示。（4）出乎意料的是，与单个训练样例属于同一类别的测试数据并不一定获得更好的提升效果。例如，π₁₁ 属于数论领域，但使用 π₁₁ 进行 RLVR 时，其在数论类别上的得分相对较低，相比之下使用其他样例（如来自微积分预备知识领域的 π₆₀₅）反而表现更好。类似的现象也出现在 π₄、π₇ 和 π₆₀₆ 等样例中。这表明，由某个实例激发的推理能力无法仅通过领域等表面特征简单预测 [35]。

3.2.4 在测试数据上更频繁的自我反思

在本节中，我们展示了单样本 RLVR 的另一个经验性观察结果：随着训练的进行，它能够增加模型输出中“自我反思”[6] 的频率。为了研究这一点，我们检查了在 Qwen2.5-Math-1.5B 上进行 RLVR 训练过程中不同训练检查点（checkpoint）的输出模式。我们发现，模型的自我反思过程通常会伴随“rethink”（重新思考）、“recheck”（重新检查）和“recalculate”（重新计算）等词语出现。因此，在评估六个数学推理任务时，我们统计了包含这三个词的响应数量。结果如图 4 所示。

首先，大约在 1300 步之后，响应长度和熵损失显著增加，这可能意味着模型在尝试生成更多样化的输出模式，或出现了过拟合现象（见图 3）。其次，在评估任务中，基础模型本身已经表现出自我反思行为，这也支持了近期研究中的发现 [13, 21]。第三，在单样本 RL 训练的后期阶段，自我检查（self-recheck）过程的数量有所增加，这再次证实了模型在测试数据上具有良好的泛化能力，即使在已经过拟合训练数据之后，仍能展现出更复杂的推理过程。

有趣的是，对于包含 1200 个样本的 DeepScaleR 子集，随着训练的推进，反思行为的频率略有下降，这与响应长度的减少趋势一致。

3.3 在其他模型/算法上的单样本/少样本 RLVR

我们进一步探究单样本/少样本 RLVR 是否适用于其他模型和强化学习算法。我们采用第 3.1 节中提到的实验设置，结果如表 4 所示（各基准任务的详细结果见附录 C.1）。我们可以观察到：

（1）对于 Qwen2.5-Math-7B 模型，使用 π₁ 的单样本 RLVR 使平均性能提升了 17.8%，而四样本（4-shot）RLVR 的表现与使用完整 DSR-sub 数据集的 RLVR 相当。此外，由 {π₁, ..., π₁₆} 组成的样本集的表现优于随机抽取的 16 个样本组成的子集。

（2）对于 Llama-3.2-3B-Instruct 模型，RLVR 带来的绝对性能增益较小，但单样本/少样本 RLVR 仍能达到甚至超过（例如 {π₁, π₁₃}）完整数据集 RLVR 的性能。我们在附录 C.1 中也展示了 Llama-3.2-3B-Instruct 上 RLVR 过程的不稳定性。

（3）使用 PPO 算法对 Qwen2.5-Math-1.5B 进行以 π₁ 为训练样本的 RLVR 同样有效。

（4）对于 DeepSeek-R1-Distill-Qwen-1.5B 模型，少样本 RLVR 与全集 RLVR 之间的性能差距相对较大。尽管如此，单样本和四样本 RLVR 仍分别带来了 6.9% 和 9.4% 的平均性能提升。

更多结果见附录 C。

4 分析

在本节中，我们集中探讨允许 RLVR 仅使用一个或少数几个样例工作的潜在机制。我们希望以下分析能够为未来的研究提供一些启示。关于格式修正（附录 C.2.3）、提示修改（附录 C.2.5）以及基础模型的推理能力（附录 D）的额外实验和讨论已包含在补充材料中。

4.1 消融研究：策略梯度损失是主要贡献因素，熵损失进一步提升了饱和后泛化能力

如第 3.2.2 节所述，单样本 RLVR 表现出“饱和后泛化”的特性。这一现象与“顿悟”（grokking）[36, 37] 类似：神经网络在训练初期首先记忆/过拟合训练数据，但在测试集上表现仍较差，经过大量训练步数后却突然实现泛化能力的大幅提升。由此引出一个自然的问题：单样本 RLVR 的性能提升是否与“顿悟”现象相关？为了回答这一问题，注意到“顿悟”现象受到权重衰减等正则化手段的强烈影响 [36, 38–41]，我们通过逐一移除或修改损失函数中的各个组成部分，进行消融实验，以探究每个部分对性能提升的贡献。

结果如表 5 所示（测试性能曲线见附录 C.2.1）。我们发现，若仅使用策略梯度损失（第 2 行）并以 π₁ 为训练样本，MATH500 的性能即可提升至 71.8%，AIME24 提升至 15.4%，已接近完整损失函数的结果（第 5 行）。此外，进一步加入权重衰减（第 3 行）和 KL 散度损失（第 4 行）对模型性能没有显著影响；而加入熵损失（第 5 行）则可使 MATH500 再提升 4.0%，AIME24 再提升 2.5%。需要注意的是，熵损失的系数应谨慎设置，若系数过大（第 6 行），可能导致训练过程更不稳定。这些观察表明，单样本/少样本 RLVR 的可行性主要归因于策略梯度损失，这使其与“顿悟”现象区分开来——后者应显著受到权重衰减的影响。为验证这一点，我们发现仅加入权重衰减和 KL 散度损失（第 8 行）对模型性能影响甚微，而仅使用策略梯

度损失和熵损失（第 7 行）的表现几乎与完整的 GRPO 损失相当。

此外，我们认为，鼓励模型输出的多样性——例如，引入适当的熵损失——可以增强单样本 RLVR 中的饱和后泛化能力。如图 5 所示，在不使用熵损失的情况下，单样本 RLVR 的模型性能在第 150 步之后提升有限，这恰好与训练准确率饱和的时点一致（见图 2 左图）。而加入熵损失后，模型平均性能提升了 2.3%；进一步将温度提升至 t = 1.0，则额外获得 0.8% 的增益。关于熵损失与饱和后泛化的更多讨论见附录 C.2.2。

4.2仅熵损失训练和标签正确性

在表 3 中，我们发现，当使用 π₁₂₀₇ 和 π₁₂₀₈ 时，模型在单样本 RLVR 训练过程中很难输出真实标签并获得奖励，导致策略梯度信号非常稀疏。尽管如此，它们的表现仍优于基础模型，在 MATH500 上分别实现了 18.0% 和 9.0% 的提升。为了探究这一现象，我们从完整的 GRPO 损失中移除了策略损失（表 5，第 9 行），甚至仅保留熵损失（第 10 行），仍然观察到了类似的性能提升。此外，这一现象在 Qwen2.5-Math-7B 和 Llama-3.2-3B-Instruct 模型上也存在，尽管提升仅出现在最初的若干训练步中。这些结果支持了以下结论：熵损失能够独立地带来性能提升，尽管其增益小于策略损失，但仍不可忽视。

此外，我们进行了一个实验，将标签分别改为：（1）正确的答案（“12.7”，第11行），（2）模型仍能过拟合的错误答案（“4”，第12行），以及（3）模型既无法猜出也无法过拟合的完全错误答案（“9292725”，第13行）。我们将这些情况与（4）原始标签（“12.8”，第5行）进行比较。有趣的是，我们发现性能排序为：（1）≈（4）>（3）>（2）。这表明，标签中的轻微不准确并不会显著损害单样本RLVR的性能；然而，如果错误标签偏差较大但仍可被模型猜测或过拟合，其导致的性能下降甚至可能比使用完全错误且无法猜测的标签更严重，后者的表现则与仅使用熵损失训练时类似（第10行）。在附录C.2.4中，我们还讨论了全集RLVR的标签鲁棒性，结果显示：如果数据集中有过多样本被赋予随机的错误标签，全集RLVR的表现甚至可能不如单样本RLVR。

5 结论

在本研究中，我们展示了仅使用单个样本的 RLVR 就足以在推理任务中引发显著的性能提升，甚至能够达到与使用数千个样本的 RLVR 相当的性能。实验结果不仅显示出任务性能的提升，还揭示了若干额外现象，例如饱和后泛化、跨领域泛化以及更频繁的自我反思行为，并对此进行了进一步分析。这些发现表明，模型的推理能力实际上已蕴含于基础模型之中，只需在极少量数据上鼓励探索，即可生成有效的强化学习训练信号，从而激发大语言模型的推理能力。我们的工作也强调了在 RLVR 中更优的数据选择与收集的重要性。未来研究方向见附录 D.4，研究局限性见附录 D.1。

A 相关工作

基于可验证奖励的强化学习（RLVR）。RLVR 是一种通过基于规则的验证函数计算奖励的方法，已被证明在提升大语言模型（LLM）的推理能力方面有效。在将强化学习应用于数学推理数据集时，最常见的 RLVR 实践是使用答案匹配：奖励函数根据模型输出的答案是否与标准参考答案一致，输出一个二值信号 [4, 5, 2, 3, 42–44]。这种奖励设计避免了对结果导向或过程导向的奖励模型的需求，提供了一种简单而有效的方法。RLVR 的成功也得益于强化学习算法的进展，包括对 PPO 的价值函数优化或细节优化 [7]（例如 VinePPO [9]、VCPPO [10]、VAPO [12]），GRPO 的稳定性与加速方法 [2]（例如 DAPO [11]、Dr. GRPO [13]、GRPO+ [14]、SRPO [16]），以及多种组件的集成（例如 REINFORCE++ [15]）。还有一些近期工作专注于在极低人类监督下的 RLVR（无需使用标注数据甚至问题本身），例如 Absolute-Zero [45]、EMPO [46] 和 TTRL [47]。

大语言模型后训练中的数据选择。大语言模型后训练中的数据选择问题在先前研究中已有广泛探讨 [48]，大多数工作集中在监督微调（指令微调）的数据选择上。这些方法包括基于大模型的质量评估 [49]、利用模型计算过程中的特征 [50]、基于梯度的选择方法 [51] 等。另一类工作 [52–54] 探索了在基于人类反馈的强化学习（RLHF）[55] 中对人类偏好数据的数据选择。相比之下，针对 RLVR 的数据选择研究仍相对较少。

其中一项尝试是 LIMR [19]，它从 8.5k 的完整数据集中筛选出 1.4k 个样例用于 RLVR，以达到与全集相当的性能；然而，与本文不同，该工作并未将训练集规模的极限推向仅使用单个样本的极端情况。另一项密切相关的同时期工作 [56] 表明，使用 PPO 的 RLVR 仅需 4 个样例即可带来显著提升；但该研究并未系统性地探索这一现象，也未证明如此极小的训练集能够真正达到使用完整数据集的性能水平。

B 实验设置

B.1 损失函数的细节

如正文所述，我们采用 verl [22] 的流程，在 GRPO 损失函数中包含三个组成部分：策略梯度损失、KL 散度损失和熵损失。具体如下：对于从问题集 P(Q) 中采样的每个问题 q，GRPO 会从旧策略模型 πθ_old 中采样一组输出 {o₁, o₂, ..., o_G}，然后通过最小化以下损失函数来优化策略模型 πθ：

B.2 训练数据集

DeepScaleR-sub。DeepScaleR-Preview-Dataset [18] 包含约 40,000 个来自 AIME（1984–2023）、AMC（2023 年之前）以及其他来源（包括 Omni-MATH [58] 和 Still [59]）的独特数学问题-答案对。数据处理流程包括：使用 Gemini-1.5-Pro-002 提取答案，通过基于 Sentence-Transformers 嵌入的 RAG 方法去除重复问题，以及过滤掉无法用 SymPy 进行评估的问题，以保证训练集的纯净性。在我们的训练中，我们随机选取了一个包含 1,209 个样例的子集，称为“DSR-sub”。

MATH。该数据集由 [27] 引入，包含 12,500 道具有挑战性的竞赛数学题目，旨在衡量机器学习模型的高级问题解决能力。与标准数学题库不同，MATH 数据集涵盖高中数学竞赛中的复杂问题，涉及前代数（Prealgebra）、代数（Algebra）、数论（Number Theory）、计数与概率（Counting and Probability）、几何（Geometry）、中级代数（Intermediate Algebra）和微积分预备知识（Precalculus）等多个主题。每道题目均标注了 1 到 5 的难度等级，并附有详细的分步解答。该数据集划分为训练子集（7,500 道题，占 60%）和测试子集（5,000 道题，占 40%）。

B.3 评估数据集

所有评估数据集均来自 Qwen2.5-Math 评估仓库³，AIME2025⁴ 除外。我们对其细节总结如下：

MATH500。MATH500 由 OpenAI [29] 构建，包含从 MATH 基准测试集 [27] 的测试部分（共 5,000 题）中精心筛选出的 500 道题目。该子集规模更小、更聚焦，专为高效评估而设计。

AIME 2024/2025。AIME 2024 和 2025 数据集是两个专门的基准测试集，分别包含来自 2024 年和 2025 年美国数学邀请赛（AIME）I 卷和 II 卷的各 30 道题目 [30]。

AMC 2023。AMC 2023 数据集包含 40 道题目，选自面向美国 12 年级及以下学生的两项高难度数学竞赛（AMC 12A 和 12B）[31]。AMC 12 用于评估中学生在算术、代数、组合数学、几何、数论和概率等领域的解题能力，所有题目均无需微积分即可解答。

Minerva Math。Minerva Math 最初在论文《Solving Quantitative Reasoning Problems with Language Models》[32] 中以“OCWCourses”形式隐式提出，包含从麻省理工学院（MIT）开放课程平台（OpenCourseWare）收集的 272 道本科水平的 STEM 题目，专门用于评估语言模型的多步科学推理能力。这些题目精心选自固体化学、信息与熵、微分方程和狭义相对论等课程，每道题均被修改为自包含形式，并配有明确界定的答案，可通过数值解（191 题）或符号解（81 题）自动验证。

OlympiadBench。OlympiadBench [33] 是一个大规模、双语、多模态的基准测试集，旨在评估人工智能系统在高级数学和物理领域的推理能力。它包含 8,476 道来自各类竞赛和国家考试的奥赛级别题目，并配有专家标注的分步解答。我们用于评估的子集包含 675 道英文开放文本型数学竞赛题目。

我们还考虑了其他非数学推理任务：ARC-Challenge 和 ARC-Easy [34]。

ARC-Challenge/Easy。ARC-Challenge 基准集是从更广泛的 ARC（AI2 推理挑战）[34] 中选取的 2,590 道高难度科学考试题，这些题目被特别筛选出来，因为传统的信息检索和词语共现方法无法正确解答。该具有挑战性的评估基准完全由基于文本的英文多项选择题（通常有四个选项）组成，涵盖不同年级水平，旨在评估科学推理能力，而非简单的模式匹配或信息检索。作为补充，ARC-Easy [34] 子集包含 5,197 道可通过较简单方法解答的题目。我们分别使用 1.17k 的测试集用于 ARC-Challenge 评估，2.38k 的测试集用于 ARC-Easy 评估。

B.4 更多训练细节

对于 DeepSeek-R1-Distill-Qwen-1.5B，我们将其最大生成长度设置为 8192，遵循 DeepScaleR [18] 中第一阶段的设置。学习率设为 1e-6。权重衰减系数默认设为 0.01。我们每 20 步保存一次模型检查点用于评估，每次实验使用 8 块 A100 GPU。对于 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Llama-3.2-3B-Instruct 和 DeepSeek-R1-Distill-Qwen-1.5B，我们分别训练 2000、1000、1000 和 1200 步，除非模型性能已出现明显下降。我们采用与 DeepScaleR [18] 相同的方法（其代码库也源自 verl）将模型以 safetensors 格式保存，以便于后续评估。

B.5 更多评估细节

在评估过程中，默认最大生成 token 数为 3072。对于基于 Qwen 的模型，我们使用 “qwen25-math-cot” 提示模板进行评估。对于 Llama 及其蒸馏模型，我们使用它们各自的原始对话模板。评估时设置随机种子（seed）为 0，top_p 为 1。对于 Llama-3.2-3B-Instruct [26]，我们采用相同的评估设置，仅更换为其自身的对话模板；对于 DeepSeek-R1-Distill-Qwen-1.5B [2]，我们也使用其自身的对话模板，并将最大生成 token 数设为 8192。默认情况下，我们报告在六个基准测试上平均性能最佳的检查点的结果。但在第 3.2.3 节和第 4.1 节中，由于我们仅评估 MATH500 和 AIME2024，因此分别报告每个基准上表现最佳的检查点（即最佳 MATH500 检查点与最佳 AIME2024 检查点可能不同）。这不会影响我们的结论，因为在附录表 8 和表 10 中，我们仍得出了与正文一致的结论。评估过程使用 4 块 GPU。最后需要说明的是，初始模型因数值精度差异可能存在轻微性能差异，但这并不影响我们的主要结论（见附录 B.6）。

B.6 初始模型的性能差异

我们注意到，在表 7 中，从 Hugging Face 仓库下载的模型与通过 verl/deepscaler 强化学习流程保存的初始检查点之间存在精度不一致的问题。该差异的根源在于：verl/DeepScaleR 流程以 float32 精度保存检查点，而 Hugging Face 上的原始基础模型使用的是 bfloat16 精度。

根本原因出现在 verl 框架的模型初始化过程中。查看 verl 代码库中的 fsdp_workers.py 文件可以发现，模型在初始化时被刻意创建为 float32 精度，正如代码注释所指出的：“注意我们必须以 fp32 创建模型，否则优化器会处于 bf16 状态，这是不正确的”。这一设计选择很可能是为了确保训练过程中优化器的稳定性。在检查检查点保存过程时，初始化时设定的精度被保留下来，导致保存的检查点保持 float32 精度，而非基础模型原有的 bfloat16 精度。

我们的实证研究表明，通过修改保存的 config.json 文件中的 torch_dtype 参数，使其与基础模型的精度一致（具体而言，将 float32 改为 bfloat16），可以成功解决观察到的数值不一致问题。相关问题已在社区中有记录⁶，而我们在实验中采用了 verl 流程的默认设置。

C 评估结果

C.1 主要实验

C.1.1 Qwen2.5-Math-1.5B 的详细性能
在图 6 中，我们展示了图 1 所示结果的详细性能。所有结果均基于在平均性能上表现最佳的检查点报告。

C.1.2 更多模型的详细性能
在表 9 中，我们还展示了基础模型（Qwen2.5-1.5B [24]）和指令微调模型（Qwen2.5-Math-1.5B-Instruct [25]）上的单样本/少样本 RLVR 结果。更详细的测试曲线见图 12 和图 13。我们可以观察到：（1）对于 Qwen2.5-1.5B，使用 π₁ 的单样本 RLVR 与全集 RLVR 之间仍存在较大差距，但前者仍显著提升了模型性能（例如 MATH500：从 3.2% 提升至 43.6%），而 16 样本 RLVR 的表现已非常接近全集 RLVR。（2）对于 Qwen2.5-Math-1.5B-Instruct，由于初始模型性能已较好，全集 RLVR 和单样本 RLVR 的提升均有限。有趣的是，如图 13 所示，我们观察到单样本 RLVR 比全集 RLVR 更稳定。

C.1.3 各基准最佳性能的详细结果
在表 8 中，我们展示了 Qwen2.5-Math-1.5B 的单样本/少样本 RLVR 详细结果。此处我们记录模型在每个基准上各自的最佳性能，因此其平均值可能高于整体平均性能的最佳值（“Avg.”）。我们提供这些结果以估计模型在各基准上可能达到的性能上限。此外，我们还包含了一些虽不如 π₁ 或 π₁₃ 表现突出但仍带来显著提升的样例，例如 π₂、π₁₂₀₁ 和 π₁₂₀₉。我们观察到，总体而言，性能越好的结果通常对应更晚的检查点步数，这可能意味着更长的“饱和后泛化”过程。类似地，在表 10 中，我们也分别列出了 Qwen2.5-Math-7B、Llama-3.2-3B-Instruct 和 DeepSeek-R1-Distill-Qwen-1.5B 的各基准最佳性能结果，以及使用 PPO 训练的 Qwen2.5-Math-1.5B 的结果。

C.1.4 Qwen2.5-Math-1.5B

上单样本 RLVR 在 MATH500 的详细测试曲线
我们绘制了在单样本 RLVR 下，使用不同数学样例时 MATH500 各子类别的性能曲线。如图 7 所示，不同样例的选择导致了显著不同的提升效果和训练动态，突显了数据选择对未来少样本 RLVR 方法的关键重要性。

C.1.5 训练过程中各基准的详细 RLVR 结果
为了更好地可视化 RLVR 的训练过程，并比较少样本 RLVR 与全集 RLVR 的差异，我们在图 8、9、10 和 11 中展示了每个模型在各个基准上的性能曲线。我们注意到，对于 Qwen2.5-Math-7B、Llama-3.2-3B-Instruct 和 DeepSeek-R1-Distill-Qwen-1.5B，少样本 RLVR 可以达到与全集 RLVR 相当甚至更优的平均性能，但后者可以在更多训练步中保持稳定，即使测试性能不再提升。未来值得关注的是，若将单样本/少样本 RLVR 应用于更稳定的 GRPO 变体 [13, 11, 12, 16]，是否能缓解这一现象。除了第 3.3 节中讨论的结论外，我们还注意到：

Llama3.2-3B-Instruct 在训练过程中更不稳定，几乎所有设置在 200 步之前就开始出现性能下降。
在 DeepSeek-R1-Distill-Qwen-1.5B 上，我们观察到单样本 RLVR 的模型性能在约 100 步后开始下降，而四样本和十六样本 RLVR 可以在更多训练步中持续提升。我们推测蒸馏模型可能需要更多样本来稳定强化学习过程，该问题留待未来研究。

在附录 C.1.2 中，我们还测试了 Qwen 系列的基础模型和指令微调版本模型，其测试曲线也展示在图 12 和图 13 中。

C.2 分析

C.2.1 消融研究的测试曲线在图 14 中，我们展示了消融研究（第 4.1 节）的测试性能曲线。可以看出，策略梯度损失是单样本 RLVR 的主要贡献因素。关于格式修正的更多讨论见附录 C.2.3。

C.2.2 熵损失

仅使用熵损失训练的详细结果。如第 4.2 节所述，我们在表 11 中展示了仅使用熵损失训练的完整结果。仅使用熵损失训练若干步，即可在除 AIME2025 外的所有数学基准上提升模型性能。测试曲线见图 14。值得注意的是，仅使用熵损失训练在 Qwen2.5-Math-1.5B 上的提升效果与仅使用格式奖励的 RLVR 相似（见附录 C.2.3 和表 12），因此我们怀疑仅使用熵损失训练的有效性可能来源于格式修正。这一现象的严格分析留待未来工作。

关于熵损失及其在单样本 RLVR 中作用的讨论。值得注意的是，我们观察到在单样本 RLVR 中加入熵损失所带来的益处，与先前工作 [60] 在完整 RLVR 数据集上的结论一致，即适当的熵正则化可以增强泛化能力，尽管其效果仍对系数选择较为敏感。我们推测单样本 RLVR 成功的原因在于：在已学习样例（如 π₁）上的策略梯度损失，实际上起到了一种隐式正则化的作用——当模型尝试探索更多样化的响应或策略时，该损失确保了训练样例学习结果的正确性（如图 3 第 1300 步所示）。正因如此，策略损失和熵损失均可为单样本 RLVR 的性能提升做出贡献。严格的理论分析留待未来研究。

C.2.3 （仅仅是）格式修正吗？

如 Dr. GRPO [13] 中所讨论的，更改 Qwen2.5-Math 模型的提示模板会显著影响其数学性能。在本节中，我们探讨几个关键问题：（单样本）RLVR 是否在进行格式修正？如果是，这是否是单样本 RLVR 唯一在做的事情？

为探究这一问题，我们考虑以下三种方法：

(a). 在 RLVR 中应用格式奖励。我们尝试仅使用格式奖励进行 RLVR（即：如果验证器能从模型输出中解析出最终答案，则无论答案是否正确，均给予奖励 1；否则奖励为 0），同时考虑单样本和全集设置。结果见表 12，测试曲线分别见图 16 和图 15。

值得注意的是，我们发现：（1）在全集 RLVR 和单样本 RLVR 中应用格式奖励的表现非常相似。（2）仅使用格式奖励已能显著提升模型性能（例如，在 MATH500 上提升约 29%，平均提升约 11%）。（3）使用结果奖励（outcome reward）的单样本 RLVR（以 π₁ 为例）与仅使用格式奖励的 RLVR 之间仍存在显著性能差距（例如，MATH500 上高出 +7.4%，平均高出 +5.8%），尽管两者在评估中输出包含“\boxed{}”的响应比例可能相近（更多讨论见下文 (b) 部分）。（4）特别地，基于图 16 和图 15，格式奖励 RLVR 对熵损失更为敏感。

有趣的是，我们还注意到，格式奖励 RLVR 在 MATH500 和 AIME24 上的最佳性能，接近于使用相对效果较差样例的单样本 RLVR 的性能，例如第 3.2.3 节表 3 中的 π₇ 和 π₁₁。这可能意味着：使用结果奖励的单样本 RLVR 至少可以达到与格式奖励 RLVR 相当的性能；而通过选择能够更好激发模型推理能力的合适样例，使用结果奖励的单样本 RLVR 还能带来额外的、非平凡的性能提升。附录 C.2.5 提供了一个示例 π′₁（使用 π₁ 的一个子问题），支持了我们在此处的论断。

(b) 观察单样本 RLVR 中格式的变化。我们进一步研究模型输出格式（例如，“\boxed{}”符号的数量）在单样本 RLVR 训练过程中的变化情况。结果如图 17 所示。我们可以看到：（1）测试准确率与“\boxed{}”数量呈显著正相关，这印证了我们在 (a) 中的观点，即格式修正在模型性能提升中起到了重要作用；但（2）对于某些基准（如 MATH500、Minerva Math 和 OlympiadBench），当“\boxed{}”数量已保持在较高比例时，这些基准上的测试准确率仍在持续提升，这可能意味着模型的推理能力在格式修正之外实现了独立的提升。

特别地，为了防止模型输出了正确答案但未将其放入“\boxed{}”的情况，我们还使用基于大语言模型的裁判方法（LLM-as-a-judge）[61]，借助 QwQ-32B [62] 来判断模型响应中是否包含正确答案。结果如表 13 所示。我们可以看到，基于规则的 Qwen-Eval 评估流程与大模型裁判 QwQ-32B 判断出的准确率非常接近；并且随着“\boxed{}”比例的上升，测试准确率也随之提高，这表明响应中实际出现的正确答案数量也在增加，而不仅仅是将正确答案放入“\boxed{}”中。

值得注意的是，我们还观察到 Qwen2.5-Math 模型在响应末尾常常出现大量重复内容，这可能导致无法正确提取最终结果。在评估 MATH500 时，Qwen2.5-Math-1.5B 和 Qwen2.5-Math-7B 的重复比例分别高达约 40% 和 20%，而 Llama3.2-3B-Instruct 仅为约 2%。这可能是导致 (a) 中提到的格式修正（例如格式奖励 RLVR）带来显著提升的原因之一。

(c) 使用单样本示例的上下文学习。上下文学习（in-context learning）[63] 是指令遵循任务中广泛使用的一种基线方法（尽管它也可能提升模型的推理能力）。在本节中，我们尝试探究单样本 RLVR 是否优于上下文学习。具体而言，我们考虑 Qwen-Eval [25] 官方为上下文学习选定的 4 个示例，以及单个训练样本 π₁。结果如表 14 所示。

我们可以发现：（1）令人惊讶的是，使用模型自生成响应的 π₁ 在 1.5B 和 7B 模型上均显著优于 Qwen 的官方示例。特别是在 Qwen2.5-Math-7B 上，使用 π₁ 的上下文学习可将 MATH500 的性能从 51.0% 提升至 75.4%，平均性能从 22.4% 提升至 37.4%。（2）尽管上下文学习也能提升基础模型的性能，但单样本 RLVR 的表现仍优于所有上下文学习的结果，显示出 RLVR 的优势。

总之，我们通过这三种方法证实：单样本 RLVR 确实实现了格式修正，并从中获得了大量性能提升，但它仍带来了额外的改进，这些改进无法仅通过格式奖励或上下文学习轻易获得。

C.2.4 随机错误标签的影响

在本节中，我们希望探究 RLVR 对标签噪声的鲁棒性。众所周知，一般的深度学习对标签噪声具有一定的鲁棒性 [64]，我们希望验证这一特性是否在 RLVR 中同样成立。我们尝试在 DSR-sub 数据集中随机翻转最终答案的标签，观察模型性能的变化。具体操作为：对数值答案在 ±10 范围内随机加减一个数，并随机改变其正负号；若为分数，则对其分子和分母分别进行类似的随机加减。

结果如表 15 所示。我们可以观察到：（1）即使将 60% 的数据标签随机替换为错误标签，RLVR 仍能取得较好的结果。（2）如果数据集中 90% 的标签都是错误的（即仅有约 120 个正确标签，其余 1.1 千个数据均为错误标签），模型的性能将低于仅使用一个正确标签的单样本 RLVR（即使用 π₁ 的情况，其中仅包含 1 个正确标签！）。这表明，RLVR 对标签噪声具有一定的鲁棒性，但如果数据集中存在过多随机错误标签，它们可能会削弱正确标签数据所带来的性能提升。

C.2.5 修改 π₁ 的提示

如第 3.2.1 节所述，我们发现模型几乎能够解决 π₁，但有时会在最后一步“计算 ∛2048”上失败。我们将这一步骤本身作为一个独立问题（记为 π′₁），并观察其在单样本 RLVR 中的表现。结果如表 16 所示。有趣的是，我们发现 π′₁ 的表现显著不如 π₁，相较于格式奖励仅带来 1.3% 的平均性能提升（如附录 C.2.3 (a) 所示）。我们认为原因在于：尽管计算 ∛2048 是 π₁ 中最具挑战性的部分之一，但 π₁ 还包含其他关键步骤（例如，根据给定数值从公式 P = kAV³ 中求解 k），这些步骤可能引发更多样化的思维链（CoT）模式（而不仅仅是数值计算），从而在“饱和后泛化”阶段提供更大的探索空间，更有效地激发模型的推理能力。

D 讨论

D.1 本工作的局限性

由于计算资源的限制，我们目前尚未尝试在更大的模型（如 Qwen2.5-32B）上进行训练。但总体而言，许多 RLVR 研究都是在 1.5B 和 7B 规模的模型上开展的，并已在 OlympiadBench 等具有挑战性的数学基准上取得了显著提升，因此我们的实验对于 RLVR 领域仍具有重要的参考价值。本工作的另一局限在于，我们主要聚焦于数学领域，尚未在其他可验证任务（如代码生成）上尝试单样本/少样本 RLVR。但我们强调，本文中所有与数学相关的实验和结论在逻辑上是自洽且清晰记录的，以确保读者理解清晰、避免混淆。我们的主要目标是深入分析这一新现象本身，它已带来了诸多新颖的观察结果（例如跨领域泛化、饱和后泛化、以及单样本 RLVR 中更频繁的自我反思等）。我们将少样本 RLVR 在其他场景（如编程）中的应用留待未来研究。

特别需要指出的是，我们的核心目标是提出一种新的观察现象，而非提出一种更优的新方法，需注意单样本 RLVR 并不能节省（甚至可能需要更多）强化学习的计算资源。此外，π₁ 不一定是在其他模型上进行单样本 RLVR 的最佳选择，因为它是基于 Qwen2.5-Math-1.5B 的历史方差得分选出的。总体而言，使用少样本 RLVR 可能使训练更稳定，例如我们在 DeepSeek-R1-Distill-Qwen-1.5B（表 4）、Qwen2.5-Math-7B（表 4）和 Qwen2.5-1.5B（表 9）上的实验表明，使用 16 个样例（{π₁, ..., π₁₆}）的 RLVR 表现与使用 1.2k 数据集 DSR-sub 相当，且优于使用单个样例 π₁ 的单样本 RLVR。

D.2 基础模型的推理能力

单样本/少样本 RLVR 的有效性为近年来提出的一个假设提供了有力证据，即：基础模型本身已具备较强的推理能力 [13, 6, 20, 21]。例如，Dr. GRPO [13] 已证明，在不使用特定提示模板的情况下，基础模型在下游任务中可取得显著更优的表现。近期研究进一步支持了这一观点，发现从 pass@k 指标来看，随着 k 的增加，通过 RLVR 训练的模型性能会逐渐低于基础模型 [20]。我们的工作从另一个角度佐证了这一观点：单个训练样例几乎不提供额外知识，却能带来显著提升。此外，我们的实验表明，仅使用极少量样例的 RLVR 就足以在数学推理任务上实现显著改进。因此，值得深入研究如何选择合适的数据，以在保持数据效率的同时更好地在强化学习阶段激活模型的潜在能力。

D.3 为何模型在训练准确率达到接近 100% 后仍能持续提升？

人们对单样本 RLVR 的一个自然担忧是：当训练准确率接近 100%（例如在单个样本上过度训练时可能发生），GRPO 的优势函数（公式 6）应趋近于零，从而导致策略梯度信号消失。然而，熵损失鼓励输出的多样性，导致模型偶尔出现错误（训练准确率维持在 99.x%），从而产生非零梯度（在包含错误响应的批次中，由于方差较小，优势函数值反而变大）。这体现了熵损失对“饱和后泛化”的重要性（见图 5）。支持这一点的是，图 18 显示，在 Qwen2.5-Math-1.5B 上进行单样本 RLVR 训练（使用 π₁）时，策略梯度损失在 100 步之后仍保持非零。

D.4 未来工作

我们认为，本研究的发现可为以下方向提供一些启示：

数据选择与构建。目前，除 LIMR [19] 外，尚无专门针对 RLVR 的数据选择方法。值得注意的是，单样本 RLVR 允许对每个样例进行独立评估，这有助于衡量数据的价值，从而为设计更优的数据选择策略提供支持。此外，由于不同样例在激发大语言模型推理能力方面存在显著差异（见表 3），有必要深入探究哪些类型的数据对 RLVR 更为有效，这对 RLVR 的数据收集阶段至关重要。需要强调的是，我们的工作并不意味着扩大 RLVR 数据集规模毫无意义，而是强调了在 RLVR 中进行更优数据选择与构建的重要性。

理解单样本 RLVR 与饱和后泛化。目前，对于单样本大模型 RLVR 的可行性以及“饱和后泛化”现象，仍缺乏严谨的理论解释。我们推测一种可能的机制是：当模型在熵损失或更高 rollout 温度的激励下尝试探索更多样化的输出策略时，对已学习样例的策略损失起到了“隐式正则化”的作用——它会惩罚那些导致模型无法正确回答已学习数据的探索模式，从而为探索过程提供验证。值得探究的是，这一现象是否与“双下降”（Double Descent）[65] 或 SGD 的隐式正则化 [66, 67] 有关。我们将在未来工作中对此现象进行严谨分析，相信这将有助于我们深入理解 RLVR 过程中发生的变化。

探索的重要性。在第 4.1 节中，我们强调了熵损失在单样本 RLVR 中的重要性，并指出为何仅使用熵损失训练即可提升模型性能，其背后的机理仍是一个值得深入研究的方向（见第 4.2 节）。相关地，熵损失已受到社区越来越多的关注，近期研究探讨了其动态特性 [68, 47, 60]，或从熵的角度提出了改进算法 [46]。我们进一步认为，更广泛且更重要的启示是：鼓励模型在解空间内探索更多样化的输出至关重要，这可能显著影响模型在下游任务中的泛化能力 [69]。添加熵损失只是实现这一目标的一种可能方式，未必是最优解。如本文及先前工作 [60] 所示，熵损失的效果对系数选择敏感，这可能限制其在更大规模实验中的适用性。我们相信，发现更优的探索促进策略将进一步提升 RLVR 的有效性。

其他应用场景。本文主要聚焦于数学推理数据，但评估单样本 RLVR 在其他领域（如代码生成或无法提供可验证奖励的任务）中的有效性同样重要。此外，在多种数据受限场景下进一步提升少样本 RLVR 性能的方法论研究也具有重要价值。正如第 4.2 节所讨论的，RLVR 的标签鲁棒性也值得进一步探索。最后，这些观察结果可能激励我们开发新的评估集，以更准确地衡量单样本 RLVR 与全集 RLVR 在数学或其他推理任务上的差异。

E 示例细节

在正文中，我们展示了样例 π₁ 的详细信息。另一个有用的样例 π₁₃ 如表 17 所示。此处我们指出，π₁₃ 是一个几何问题，其答案是精确的。与 π₁ 类似，在对初始基础模型进行 128 次采样的结果中，仍有 21.9% 的输出成功得到了结果 4/3。

此外，补充材料中的表18至表38提供了我们实验中使用的所有样例以及 {π₁, ..., π₁₇} 中其他样例的详细信息。每个表格包含单个样例的具体提示（prompt）和对应的标准答案标签（ground truth label）。

原文链接：https://arxiv.org/pdf/2504.20571

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.