网易首页 > 网易号 > 正文 申请入驻

不强化学习也能推理,哈佛采样算法让基础模型比肩GRPO后训练版本

0
分享至

机器之心报道

编辑:Panda

强化学习能力强大,几乎已经成为推理模型训练流程中的标配,也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

现在,问题来了:要让大模型学会推理,强化学习是必需的吗?

近日,哈佛大学一篇论文探索了能否不使用任何额外训练,通过纯粹的采样让基础模型表现出推理能力。

他们的探索成功了,提出了一种利用基础模型自身似然度的简单迭代采样算法。

  • 论文标题:Reasoning with Sampling: Your Base Model is Smarter Than You Think
  • 论文地址:https://www.arxiv.org/pdf/2510.14901
  • 项目网站:https://aakaran.github.io/reasoning_with_sampling/
  • 代码地址:https://github.com/aakaran/reasoning-with-sampling

他们还证明,在不同的基础模型上,该算法都能大幅提升推理能力。

也就是说:直接从基础模型进行采样,可以实现与强化学习相媲美的单次推理能力!

更重要的是,该算法无需训练、无需数据集、无需验证器,从而可避免了强化学习方法的一些固有弱点,包括为避免训练不稳定而进行的大量超参数搜索、整理多样化且庞大的后训练数据集的需求,以及无法保证获取真实验证器 / 奖励信号的问题。

不得不说,这个结果着实让人惊讶。

基础概念:分布锐化

这个哈佛团队的核心设计基于分布锐化(distribution sharpening)概念。

具体来说,针对一个参考分布(reference distribution),锐化是指对该分布进行重新加权,使得高似然度区域的权重被进一步提升,而低似然度区域的权重被降低,从而使采样大幅偏向于参考分布下的高似然度样本。

基于此,如果经过 RL 后训练的模型实际上只是基础模型的某个锐化版本,就应该能够明确指定一个目标采样分布来实现相同的效果。

也就是说,只要找到这个目标采样分布就能让模型具备推理能力!

使用幂分布进行推理

该团队发现,对于分布 p,一种自然的锐化方法是从幂分布 (power distribution) p^α 中采样。

由于 那么对 p 取幂会增加高似然度序列 (x) 的相对权重,同时减少低似然度序列 (x') 的相对权重。下图给出了可视化演示:

一个众所周知且相关的锐化策略是低温采样 (low-temperature sampling) ,即在每一步都对条件性下一 token 分布进行幂运算:

这里的温度是 τ = 1/α。一个常见的误解是,在 T 个 token 上使用上式进行采样等同于从 p^α 中采样;然而,该团队指出:这在一种微妙但关键的方面是错误的。

命题:低温采样并非从幂分布 p^α 中采样。

对该命题的证明参阅原论文,这里不再详述。

一种理解这种差异的直观方式是:低温采样没有考虑到幂运算如何锐化时间步 t 时的「未来路径」的似然度,而是「贪婪地」平均了所有这些未来的似然度。另一方面,从 p^α 采样则内在地考虑了未来的完成情况,因为它在计算下一 token 预测的权重之前,对所有未来路径进行了幂运算。

这带来了一个结论:幂分布会提升那些未来路径数量少但似然度高的 token 的权重,而低温采样则会提升那些未来路径完成可能多但似然度低的 token 的权重。

下面展示了一个示例:

因此,从 p^α 采样会鼓励采样那些具有较少但似然度更高的「未来路径」的 token,而不是那些具有多个较低似然度完成可能的 token。而这种行为对于推理任务非常有价值

例如,选择那些平均似然度高但会将输出陷入低似然度个体未来的「错误」token,是关键窗口 (critical windows) 或关键性 token (pivotal tokens) 的典型案例,这是一种少数几个 token 对语言模型输出的正确性有巨大影响的现象。

事实上,已有研究表明,尖锐的关键窗口与推理失败有很强的相关性。相反,从幂分布采样的过程内在地包含了一种偏向,即规划未来的高似然度 token。

Metropolis-Hastings 算法

我们已经从理论上看到从 p^α 采样可以如何帮助提升底层 LLM 的推理能力。基于此,该团队构建了一个算法,以便能够准确从中采样。

给定一个 LLM p,我们可以获取任意序列长度的 p^α 的值;然而,这些值是未归一化的。直接从真实概率进行采样需要对所有序列 (x_0, ..., x_T) 进行归一化,这在计算上是不可行的。

为了解决这个问题,他们采用了一种名为 Metropolis-Hastings (MH) 的马尔可夫链蒙特卡洛 (MCMC) 算法 [Metropolis et al., 1953],它恰好能实现这个目标:从一个未归一化的概率分布中进行近似采样。

否则,MH 算法设置 x^{i+1} = x^i。这个算法特别方便,因为它只需要由 p^α 给出的相对权重 (因为 A 中的归一化权重会抵消),并且可以与任何通用但易于处理的采样器 q 配合使用,限制极少。值得注意的是,只要 n 足够大,并且提议分布满足以下 (相当宽松的) 条件,这个过程就会收敛到从目标分布 p^α 中采样 :

定义 1: 如果对于在目标分布 p^α 下具有非零质量的任何集合 X,提议分布 q 最终从 X 中采样的概率为非零,则称 q 是不可约的 (irreducible)。如果所导出的样本链不会在固定的步数间隔后返回到同一个样本,则称该提议是非周期的 (aperiodic)。

因此,只需确保提议分布满足不可约性和非周期性,Metropolis-Hastings 算法就能处理剩下的事情。

在实践层面上,我们自然还希望 q (x|x^i) 和其逆过程 q (x^i|x) 都易于计算。

以以下一类随机重采样提议分布为例,见下图:

设 p_prop 是一个提议 LLM。以均匀概率 1/T,从 [1, T] 中选择一个随机位置 t,并使用 p_prop 从索引 t 开始重采样序列。那么转移似然度 q (x|x^i) 就是这次重采样的似然度。注意,在每个候选选择步骤中,我们都有非零概率在任意两个序列 x、x' 之间转换,因为我们总是有可能从 x 的开头就进行重采样。这确保了提议分布既是不可约的也是非周期的。此外,由于对称性,q (x^i|x) 也很容易计算,因为我们可以将 x^i 视为 x 的一个重采样版本。

借助 Metropolis-Hastings 赋予的灵活性,可以为提议 LLM p_prop 选择任何 LLM,并采用任何采样策略(例如,低温采样)。

使用自回归 MCMC 进行幂采样

直接为 LLM 实现 Metropolis-Hastings 算法,将涉及用一个长度为 T 的采样 token 序列进行初始化,然后通过 (9) 式在许多次迭代中生成新的长度为 T 的候选序列。

然而,由于需要对 LLM 进行重复的、全序列的推理调用,这个过程的计算成本非常高。

实际上,MCMC 算法在实践中的主要缺点是可能存在指数级的混合时间 (mixing time) ,即糟糕的初始化或提议分布选择可能导致需要指数级数量的样本才能收敛到目标分布。如果样本空间维度很高,这个问题会更加严重,而 token 序列空间 X^T 正好表现出这一特点,尤其是对于长序列/大 T 值的情况。

为了解决这个问题,这个哈佛团队提出了一种利用自回归采样顺序结构的算法

他们定义了一系列中间分布,并从中逐步采样,直到收敛到目标分布 p^α。具体来说,从一个中间分布中采样的样本会启动下一个中间分布的 Metropolis-Hastings 过程,这有助于避免病态的初始化。

该算法的伪代码如下所示:

实验

该团队也通过实验验证了该算法的有效性。

他们为此使用了一套标准的推理基准,涵盖数学、编程和 STEM (MATH500, HumanEval, GPQA),以及一个评估通用帮助能力的不可验证基准 (AlpacaEval 2.0)。他们对所有方法和基线都进行单次评估;即,基于一个最终的响应字符串。

模型方面,为了展示新采样算法的有效性,他们使用了 Qwen2.5Math-7B、Qwen2.5-7B 和 Phi-3.5-mini-instruct 这些基础模型。对于对比 RL 基线,他们使用了论文《Spurious rewards: Rethinking training signals in RLVR》中的 GRPO 实现,该实现用 MATH 训练集对这些模型进行后训练。

对于其幂采样 (算法 1) 实现,该团队将最大 T 设置为 T_max = 3072 (遇到 EOS token 可能提前终止),块大小 B = 3072/16 = 192。根据经验,他们发现对于推理任务,α = 4.0 结合一个选择为基础模型并将采样温度设为 1/α 的提议 LLM p_prop 表现最佳。对于 AlpacaEval 2.0,他们发现使用更高温度 (τ = 0.5) 的提议分布能提升性能。

主要结果

主要结果见表 1。可以看到,对于不同家族的基础模型,新提出的采样算法在各种推理和评估任务上,相对于不同基线都实现了近乎普遍的显著的单次准确度和分数提升,例如,让 Phi-3.5-mini 在 HumanEval 提升了 51.9%,让 Qwen2.5-Math 在 MATH500 上提升了 25.2%。

特别要指出,在 MATH500 这个 RL 后训练的领域内任务上,幂采样实现的准确度与 GRPO 获得的准确度相当

此外,在领域外推理任务上,新算法在 GPQA 上再次与 GRPO 持平,而在 HumanEval 上甚至超越了 GRPO,最高提升达 59.8%。

同样,幂采样在不可验证的 AlpacaEval 2.0 上也稳定地优于基线,这表明新算法带来的性能提升可以推广到可验证性之外的领域。

这个从根本上简单且无需训练的采样算法所取得的惊人成功,凸显了现有基础模型潜藏的推理能力。

优势总结

该团队也对新提出的算法进行了更加细致的分析,总结起来其优势如下:

  • 实现了「两全其美」的性能:幂采样能像 GRPO 一样,生成高似然度、长篇幅的优质推理答案。但与 GRPO 不同的是,它成功避免了「多样性崩溃」。在多次尝试 (pass@k, k>1) 的场景下,其性能远超因答案单一而性能迅速饱和的 GRPO。这解决了强化学习方法以牺牲多样性换取单次性能的长期痛点。
  • 推理时可灵活扩展且参数稳健:该方法提供了一个有效的「测试时计算换性能」的途径。可以通过增加 MCMC 的迭代步数来换取更高的准确率,即使只增加几步,性能提升也十分显著。算法对关键超参数 α (幂指数) 的选择不敏感 (相对稳健),这使得它在实际应用中更容易部署和调优。
  • 计算成本具有可行性:虽然增加了推理时的计算量,但其总成本大致只相当于进行一轮 GRPO 训练,这意味着它是一种无需重新训练模型、成本可控的性能提升方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
暨南大学党委原书记张德昌逝世,享年96岁

暨南大学党委原书记张德昌逝世,享年96岁

澎湃新闻
2026-05-11 10:38:26
摊牌了!一则动态曝光周迅王骁的真实关系,与陈坤领证早真相大白

摊牌了!一则动态曝光周迅王骁的真实关系,与陈坤领证早真相大白

洲洲影视娱评
2026-05-10 21:08:46
花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

李将平老师
2026-05-10 14:56:19
张继科早看出张本智和缺陷:越靠近11分他就越变形 梁大胖请我吃饭

张继科早看出张本智和缺陷:越靠近11分他就越变形 梁大胖请我吃饭

风过乡
2026-05-11 07:49:18
美军:超20艘美国军舰参与对伊朗实施封锁

美军:超20艘美国军舰参与对伊朗实施封锁

新华社
2026-05-11 09:44:54
脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

大风新闻
2026-05-10 15:28:26
紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

扬子晚报
2026-05-10 20:20:42
名记:华盛顿奇才总裁表示,会考虑向下交易刚刚获得的状元签

名记:华盛顿奇才总裁表示,会考虑向下交易刚刚获得的状元签

懂球帝
2026-05-11 11:37:55
赔偿1w1!2男孩被清纯美少女热情邀玩后反被报警轮J未成年事件疯传!

赔偿1w1!2男孩被清纯美少女热情邀玩后反被报警轮J未成年事件疯传!

魔都囡
2026-05-11 09:26:41
顺治只活了23岁,并且只宠爱董鄂妃,那他14个孩子都是谁生的?

顺治只活了23岁,并且只宠爱董鄂妃,那他14个孩子都是谁生的?

铭记历史呀
2026-05-10 19:20:42
打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

网络易不易
2026-05-10 11:34:41
被官方痛批的“男菩萨”,让多少景区晚节不保?

被官方痛批的“男菩萨”,让多少景区晚节不保?

金错刀
2026-05-08 15:45:01
“义乌发展经验”缘何拥有持久生命力

“义乌发展经验”缘何拥有持久生命力

新华社
2026-05-10 22:05:22
中国最孤独的大使:一个人带着一条狗坚守三年,改善生活靠挖野菜

中国最孤独的大使:一个人带着一条狗坚守三年,改善生活靠挖野菜

西楼知趣杂谈
2026-05-02 21:21:03
高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

次元君情感
2026-05-10 21:14:41
两名中国公民被乌克兰关押一年,俄不收中方不接,处境太难了

两名中国公民被乌克兰关押一年,俄不收中方不接,处境太难了

Ck的蜜糖
2026-05-10 10:05:58
八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

马捗在解说
2026-05-08 14:50:30
致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

熊太行
2026-05-11 00:06:25
0-4耻辱出局!布伦森就是恩比德的严父,76人被骂都是群软货

0-4耻辱出局!布伦森就是恩比德的严父,76人被骂都是群软货

听我说球
2026-05-11 09:43:11
火箭手握2枚次轮,自用胜过交易?曾经摘下2位首发,沙里淘金有戏

火箭手握2枚次轮,自用胜过交易?曾经摘下2位首发,沙里淘金有戏

熊哥爱篮球
2026-05-11 12:42:14
2026-05-11 13:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12965文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

谢霆锋没想到,王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

教育
数码
旅游
时尚
本地

教育要闻

奔赴一场英法教育之旅,遇见更好的未来

数码要闻

联想YOGA Air 14 Ultra笔记本官宣5月19日发布

旅游要闻

济南“泉水游”爆火背后:解码历下如何擦亮“泉水长涌”金名片

轻松拿捏又甜又酷的造型,试试这些轻熟穿搭,温柔有女人味儿

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版