不强化学习也能推理，哈佛采样算法让基础模型比肩GRPO后训练版本|序列|大模型|mcmc

不强化学习也能推理，哈佛采样算法让基础模型比肩GRPO后训练版本

2025-10-22 17:11:41　来源: 机器之心Pro

北京举报

分享至

机器之心报道

编辑：Panda

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

现在，问题来了：要让大模型学会推理，强化学习是必需的吗？

近日，哈佛大学一篇论文探索了能否不使用任何额外训练，通过纯粹的采样让基础模型表现出推理能力。

他们的探索成功了，提出了一种利用基础模型自身似然度的简单迭代采样算法。

论文标题：Reasoning with Sampling: Your Base Model is Smarter Than You Think
论文地址：https://www.arxiv.org/pdf/2510.14901
项目网站：https://aakaran.github.io/reasoning_with_sampling/
代码地址：https://github.com/aakaran/reasoning-with-sampling

他们还证明，在不同的基础模型上，该算法都能大幅提升推理能力。

也就是说：直接从基础模型进行采样，可以实现与强化学习相媲美的单次推理能力！

更重要的是，该算法无需训练、无需数据集、无需验证器，从而可避免了强化学习方法的一些固有弱点，包括为避免训练不稳定而进行的大量超参数搜索、整理多样化且庞大的后训练数据集的需求，以及无法保证获取真实验证器 / 奖励信号的问题。

不得不说，这个结果着实让人惊讶。

基础概念：分布锐化

这个哈佛团队的核心设计基于分布锐化（distribution sharpening）概念。

具体来说，针对一个参考分布（reference distribution），锐化是指对该分布进行重新加权，使得高似然度区域的权重被进一步提升，而低似然度区域的权重被降低，从而使采样大幅偏向于参考分布下的高似然度样本。

基于此，如果经过 RL 后训练的模型实际上只是基础模型的某个锐化版本，就应该能够明确指定一个目标采样分布来实现相同的效果。

也就是说，只要找到这个目标采样分布就能让模型具备推理能力！

使用幂分布进行推理

该团队发现，对于分布 p，一种自然的锐化方法是从幂分布 (power distribution) p^α 中采样。

由于那么对 p 取幂会增加高似然度序列 (x) 的相对权重，同时减少低似然度序列 (x') 的相对权重。下图给出了可视化演示：

一个众所周知且相关的锐化策略是低温采样 (low-temperature sampling) ，即在每一步都对条件性下一 token 分布进行幂运算：

这里的温度是 τ = 1/α。一个常见的误解是，在 T 个 token 上使用上式进行采样等同于从 p^α 中采样；然而，该团队指出：这在一种微妙但关键的方面是错误的。

命题：低温采样并非从幂分布 p^α 中采样。

对该命题的证明参阅原论文，这里不再详述。

一种理解这种差异的直观方式是：低温采样没有考虑到幂运算如何锐化时间步 t 时的「未来路径」的似然度，而是「贪婪地」平均了所有这些未来的似然度。另一方面，从 p^α 采样则内在地考虑了未来的完成情况，因为它在计算下一 token 预测的权重之前，对所有未来路径进行了幂运算。

这带来了一个结论：幂分布会提升那些未来路径数量少但似然度高的 token 的权重，而低温采样则会提升那些未来路径完成可能多但似然度低的 token 的权重。

下面展示了一个示例：

因此，从 p^α 采样会鼓励采样那些具有较少但似然度更高的「未来路径」的 token，而不是那些具有多个较低似然度完成可能的 token。而这种行为对于推理任务非常有价值

例如，选择那些平均似然度高但会将输出陷入低似然度个体未来的「错误」token，是关键窗口 (critical windows) 或关键性 token (pivotal tokens) 的典型案例，这是一种少数几个 token 对语言模型输出的正确性有巨大影响的现象。

事实上，已有研究表明，尖锐的关键窗口与推理失败有很强的相关性。相反，从幂分布采样的过程内在地包含了一种偏向，即规划未来的高似然度 token。

Metropolis-Hastings 算法

我们已经从理论上看到从 p^α 采样可以如何帮助提升底层 LLM 的推理能力。基于此，该团队构建了一个算法，以便能够准确从中采样。

给定一个 LLM p，我们可以获取任意序列长度的 p^α 的值；然而，这些值是未归一化的。直接从真实概率进行采样需要对所有序列 (x_0, ..., x_T) 进行归一化，这在计算上是不可行的。

为了解决这个问题，他们采用了一种名为 Metropolis-Hastings (MH) 的马尔可夫链蒙特卡洛 (MCMC) 算法 [Metropolis et al., 1953]，它恰好能实现这个目标：从一个未归一化的概率分布中进行近似采样。

否则，MH 算法设置 x^{i+1} = x^i。这个算法特别方便，因为它只需要由 p^α 给出的相对权重 (因为 A 中的归一化权重会抵消)，并且可以与任何通用但易于处理的采样器 q 配合使用，限制极少。值得注意的是，只要 n 足够大，并且提议分布满足以下 (相当宽松的) 条件，这个过程就会收敛到从目标分布 p^α 中采样：

定义 1: 如果对于在目标分布 p^α 下具有非零质量的任何集合 X，提议分布 q 最终从 X 中采样的概率为非零，则称 q 是不可约的 (irreducible)。如果所导出的样本链不会在固定的步数间隔后返回到同一个样本，则称该提议是非周期的 (aperiodic)。

因此，只需确保提议分布满足不可约性和非周期性，Metropolis-Hastings 算法就能处理剩下的事情。

在实践层面上，我们自然还希望 q (x|x^i) 和其逆过程 q (x^i|x) 都易于计算。

以以下一类随机重采样提议分布为例，见下图：

设 p_prop 是一个提议 LLM。以均匀概率 1/T，从 [1, T] 中选择一个随机位置 t，并使用 p_prop 从索引 t 开始重采样序列。那么转移似然度 q (x|x^i) 就是这次重采样的似然度。注意，在每个候选选择步骤中，我们都有非零概率在任意两个序列 x、x' 之间转换，因为我们总是有可能从 x 的开头就进行重采样。这确保了提议分布既是不可约的也是非周期的。此外，由于对称性，q (x^i|x) 也很容易计算，因为我们可以将 x^i 视为 x 的一个重采样版本。

借助 Metropolis-Hastings 赋予的灵活性，可以为提议 LLM p_prop 选择任何 LLM，并采用任何采样策略(例如，低温采样)。

使用自回归 MCMC 进行幂采样

直接为 LLM 实现 Metropolis-Hastings 算法，将涉及用一个长度为 T 的采样 token 序列进行初始化，然后通过 (9) 式在许多次迭代中生成新的长度为 T 的候选序列。

然而，由于需要对 LLM 进行重复的、全序列的推理调用，这个过程的计算成本非常高。

实际上，MCMC 算法在实践中的主要缺点是可能存在指数级的混合时间 (mixing time) ，即糟糕的初始化或提议分布选择可能导致需要指数级数量的样本才能收敛到目标分布。如果样本空间维度很高，这个问题会更加严重，而 token 序列空间 X^T 正好表现出这一特点，尤其是对于长序列/大 T 值的情况。

为了解决这个问题，这个哈佛团队提出了一种利用自回归采样顺序结构的算法

他们定义了一系列中间分布，并从中逐步采样，直到收敛到目标分布 p^α。具体来说，从一个中间分布中采样的样本会启动下一个中间分布的 Metropolis-Hastings 过程，这有助于避免病态的初始化。

该算法的伪代码如下所示：

实验

该团队也通过实验验证了该算法的有效性。

他们为此使用了一套标准的推理基准，涵盖数学、编程和 STEM (MATH500, HumanEval, GPQA)，以及一个评估通用帮助能力的不可验证基准 (AlpacaEval 2.0)。他们对所有方法和基线都进行单次评估；即，基于一个最终的响应字符串。

模型方面，为了展示新采样算法的有效性，他们使用了 Qwen2.5Math-7B、Qwen2.5-7B 和 Phi-3.5-mini-instruct 这些基础模型。对于对比 RL 基线，他们使用了论文《Spurious rewards: Rethinking training signals in RLVR》中的 GRPO 实现，该实现用 MATH 训练集对这些模型进行后训练。

对于其幂采样 (算法 1) 实现，该团队将最大 T 设置为 T_max = 3072 (遇到 EOS token 可能提前终止)，块大小 B = 3072/16 = 192。根据经验，他们发现对于推理任务，α = 4.0 结合一个选择为基础模型并将采样温度设为 1/α 的提议 LLM p_prop 表现最佳。对于 AlpacaEval 2.0，他们发现使用更高温度 (τ = 0.5) 的提议分布能提升性能。

主要结果

主要结果见表 1。可以看到，对于不同家族的基础模型，新提出的采样算法在各种推理和评估任务上，相对于不同基线都实现了近乎普遍的显著的单次准确度和分数提升，例如，让 Phi-3.5-mini 在 HumanEval 提升了 51.9%，让 Qwen2.5-Math 在 MATH500 上提升了 25.2%。

特别要指出，在 MATH500 这个 RL 后训练的领域内任务上，幂采样实现的准确度与 GRPO 获得的准确度相当

此外，在领域外推理任务上，新算法在 GPQA 上再次与 GRPO 持平，而在 HumanEval 上甚至超越了 GRPO，最高提升达 59.8%。

同样，幂采样在不可验证的 AlpacaEval 2.0 上也稳定地优于基线，这表明新算法带来的性能提升可以推广到可验证性之外的领域。

这个从根本上简单且无需训练的采样算法所取得的惊人成功，凸显了现有基础模型潜藏的推理能力。

优势总结

该团队也对新提出的算法进行了更加细致的分析，总结起来其优势如下：

实现了「两全其美」的性能：幂采样能像 GRPO 一样，生成高似然度、长篇幅的优质推理答案。但与 GRPO 不同的是，它成功避免了「多样性崩溃」。在多次尝试 (pass@k, k>1) 的场景下，其性能远超因答案单一而性能迅速饱和的 GRPO。这解决了强化学习方法以牺牲多样性换取单次性能的长期痛点。
推理时可灵活扩展且参数稳健：该方法提供了一个有效的「测试时计算换性能」的途径。可以通过增加 MCMC 的迭代步数来换取更高的准确率，即使只增加几步，性能提升也十分显著。算法对关键超参数 α (幂指数) 的选择不敏感 (相对稳健)，这使得它在实际应用中更容易部署和调优。
计算成本具有可行性：虽然增加了推理时的计算量，但其总成本大致只相当于进行一轮 GRPO 训练，这意味着它是一种无需重新训练模型、成本可控的性能提升方案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.