网易首页 > 网易号 > 正文 申请入驻

不强化学习也能推理,哈佛采样算法让基础模型比肩GRPO后训练版本

0
分享至



机器之心报道

编辑:Panda

强化学习能力强大,几乎已经成为推理模型训练流程中的标配,也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

现在,问题来了:要让大模型学会推理,强化学习是必需的吗?

近日,哈佛大学一篇论文探索了能否不使用任何额外训练,通过纯粹的采样让基础模型表现出推理能力。



他们的探索成功了,提出了一种利用基础模型自身似然度的简单迭代采样算法。



  • 论文标题:Reasoning with Sampling: Your Base Model is Smarter Than You Think
  • 论文地址:https://www.arxiv.org/pdf/2510.14901
  • 项目网站:https://aakaran.github.io/reasoning_with_sampling/
  • 代码地址:https://github.com/aakaran/reasoning-with-sampling

他们还证明,在不同的基础模型上,该算法都能大幅提升推理能力。



也就是说:直接从基础模型进行采样,可以实现与强化学习相媲美的单次推理能力!

更重要的是,该算法无需训练、无需数据集、无需验证器,从而可避免了强化学习方法的一些固有弱点,包括为避免训练不稳定而进行的大量超参数搜索、整理多样化且庞大的后训练数据集的需求,以及无法保证获取真实验证器 / 奖励信号的问题。

不得不说,这个结果着实让人惊讶。

基础概念:分布锐化

这个哈佛团队的核心设计基于分布锐化(distribution sharpening)概念。

具体来说,针对一个参考分布(reference distribution),锐化是指对该分布进行重新加权,使得高似然度区域的权重被进一步提升,而低似然度区域的权重被降低,从而使采样大幅偏向于参考分布下的高似然度样本。

基于此,如果经过 RL 后训练的模型实际上只是基础模型的某个锐化版本,就应该能够明确指定一个目标采样分布来实现相同的效果。

也就是说,只要找到这个目标采样分布就能让模型具备推理能力!



使用幂分布进行推理

该团队发现,对于分布 p,一种自然的锐化方法是从幂分布 (power distribution) p^α 中采样。

由于 那么对 p 取幂会增加高似然度序列 (x) 的相对权重,同时减少低似然度序列 (x') 的相对权重。下图给出了可视化演示:





一个众所周知且相关的锐化策略是低温采样 (low-temperature sampling) ,即在每一步都对条件性下一 token 分布进行幂运算:



这里的温度是 τ = 1/α。一个常见的误解是,在 T 个 token 上使用上式进行采样等同于从 p^α 中采样;然而,该团队指出:这在一种微妙但关键的方面是错误的。

命题:低温采样并非从幂分布 p^α 中采样。

对该命题的证明参阅原论文,这里不再详述。

一种理解这种差异的直观方式是:低温采样没有考虑到幂运算如何锐化时间步 t 时的「未来路径」的似然度,而是「贪婪地」平均了所有这些未来的似然度。另一方面,从 p^α 采样则内在地考虑了未来的完成情况,因为它在计算下一 token 预测的权重之前,对所有未来路径进行了幂运算。

这带来了一个结论:幂分布会提升那些未来路径数量少但似然度高的 token 的权重,而低温采样则会提升那些未来路径完成可能多但似然度低的 token 的权重。

下面展示了一个示例:



因此,从 p^α 采样会鼓励采样那些具有较少但似然度更高的「未来路径」的 token,而不是那些具有多个较低似然度完成可能的 token。而这种行为对于推理任务非常有价值

例如,选择那些平均似然度高但会将输出陷入低似然度个体未来的「错误」token,是关键窗口 (critical windows) 或关键性 token (pivotal tokens) 的典型案例,这是一种少数几个 token 对语言模型输出的正确性有巨大影响的现象。

事实上,已有研究表明,尖锐的关键窗口与推理失败有很强的相关性。相反,从幂分布采样的过程内在地包含了一种偏向,即规划未来的高似然度 token。

Metropolis-Hastings 算法

我们已经从理论上看到从 p^α 采样可以如何帮助提升底层 LLM 的推理能力。基于此,该团队构建了一个算法,以便能够准确从中采样。

给定一个 LLM p,我们可以获取任意序列长度的 p^α 的值;然而,这些值是未归一化的。直接从真实概率进行采样需要对所有序列 (x_0, ..., x_T) 进行归一化,这在计算上是不可行的。

为了解决这个问题,他们采用了一种名为 Metropolis-Hastings (MH) 的马尔可夫链蒙特卡洛 (MCMC) 算法 [Metropolis et al., 1953],它恰好能实现这个目标:从一个未归一化的概率分布中进行近似采样。



否则,MH 算法设置 x^{i+1} = x^i。这个算法特别方便,因为它只需要由 p^α 给出的相对权重 (因为 A 中的归一化权重会抵消),并且可以与任何通用但易于处理的采样器 q 配合使用,限制极少。值得注意的是,只要 n 足够大,并且提议分布满足以下 (相当宽松的) 条件,这个过程就会收敛到从目标分布 p^α 中采样 :

定义 1: 如果对于在目标分布 p^α 下具有非零质量的任何集合 X,提议分布 q 最终从 X 中采样的概率为非零,则称 q 是不可约的 (irreducible)。如果所导出的样本链不会在固定的步数间隔后返回到同一个样本,则称该提议是非周期的 (aperiodic)。

因此,只需确保提议分布满足不可约性和非周期性,Metropolis-Hastings 算法就能处理剩下的事情。

在实践层面上,我们自然还希望 q (x|x^i) 和其逆过程 q (x^i|x) 都易于计算。

以以下一类随机重采样提议分布为例,见下图:



设 p_prop 是一个提议 LLM。以均匀概率 1/T,从 [1, T] 中选择一个随机位置 t,并使用 p_prop 从索引 t 开始重采样序列。那么转移似然度 q (x|x^i) 就是这次重采样的似然度。注意,在每个候选选择步骤中,我们都有非零概率在任意两个序列 x、x' 之间转换,因为我们总是有可能从 x 的开头就进行重采样。这确保了提议分布既是不可约的也是非周期的。此外,由于对称性,q (x^i|x) 也很容易计算,因为我们可以将 x^i 视为 x 的一个重采样版本。

借助 Metropolis-Hastings 赋予的灵活性,可以为提议 LLM p_prop 选择任何 LLM,并采用任何采样策略(例如,低温采样)。

使用自回归 MCMC 进行幂采样

直接为 LLM 实现 Metropolis-Hastings 算法,将涉及用一个长度为 T 的采样 token 序列进行初始化,然后通过 (9) 式在许多次迭代中生成新的长度为 T 的候选序列。

然而,由于需要对 LLM 进行重复的、全序列的推理调用,这个过程的计算成本非常高。

实际上,MCMC 算法在实践中的主要缺点是可能存在指数级的混合时间 (mixing time) ,即糟糕的初始化或提议分布选择可能导致需要指数级数量的样本才能收敛到目标分布。如果样本空间维度很高,这个问题会更加严重,而 token 序列空间 X^T 正好表现出这一特点,尤其是对于长序列/大 T 值的情况。

为了解决这个问题,这个哈佛团队提出了一种利用自回归采样顺序结构的算法

他们定义了一系列中间分布,并从中逐步采样,直到收敛到目标分布 p^α。具体来说,从一个中间分布中采样的样本会启动下一个中间分布的 Metropolis-Hastings 过程,这有助于避免病态的初始化。

该算法的伪代码如下所示:



实验

该团队也通过实验验证了该算法的有效性。

他们为此使用了一套标准的推理基准,涵盖数学、编程和 STEM (MATH500, HumanEval, GPQA),以及一个评估通用帮助能力的不可验证基准 (AlpacaEval 2.0)。他们对所有方法和基线都进行单次评估;即,基于一个最终的响应字符串。

模型方面,为了展示新采样算法的有效性,他们使用了 Qwen2.5Math-7B、Qwen2.5-7B 和 Phi-3.5-mini-instruct 这些基础模型。对于对比 RL 基线,他们使用了论文《Spurious rewards: Rethinking training signals in RLVR》中的 GRPO 实现,该实现用 MATH 训练集对这些模型进行后训练。

对于其幂采样 (算法 1) 实现,该团队将最大 T 设置为 T_max = 3072 (遇到 EOS token 可能提前终止),块大小 B = 3072/16 = 192。根据经验,他们发现对于推理任务,α = 4.0 结合一个选择为基础模型并将采样温度设为 1/α 的提议 LLM p_prop 表现最佳。对于 AlpacaEval 2.0,他们发现使用更高温度 (τ = 0.5) 的提议分布能提升性能。

主要结果

主要结果见表 1。可以看到,对于不同家族的基础模型,新提出的采样算法在各种推理和评估任务上,相对于不同基线都实现了近乎普遍的显著的单次准确度和分数提升,例如,让 Phi-3.5-mini 在 HumanEval 提升了 51.9%,让 Qwen2.5-Math 在 MATH500 上提升了 25.2%。



特别要指出,在 MATH500 这个 RL 后训练的领域内任务上,幂采样实现的准确度与 GRPO 获得的准确度相当

此外,在领域外推理任务上,新算法在 GPQA 上再次与 GRPO 持平,而在 HumanEval 上甚至超越了 GRPO,最高提升达 59.8%。

同样,幂采样在不可验证的 AlpacaEval 2.0 上也稳定地优于基线,这表明新算法带来的性能提升可以推广到可验证性之外的领域。

这个从根本上简单且无需训练的采样算法所取得的惊人成功,凸显了现有基础模型潜藏的推理能力。

优势总结

该团队也对新提出的算法进行了更加细致的分析,总结起来其优势如下:

  • 实现了「两全其美」的性能:幂采样能像 GRPO 一样,生成高似然度、长篇幅的优质推理答案。但与 GRPO 不同的是,它成功避免了「多样性崩溃」。在多次尝试 (pass@k, k>1) 的场景下,其性能远超因答案单一而性能迅速饱和的 GRPO。这解决了强化学习方法以牺牲多样性换取单次性能的长期痛点。
  • 推理时可灵活扩展且参数稳健:该方法提供了一个有效的「测试时计算换性能」的途径。可以通过增加 MCMC 的迭代步数来换取更高的准确率,即使只增加几步,性能提升也十分显著。算法对关键超参数 α (幂指数) 的选择不敏感 (相对稳健),这使得它在实际应用中更容易部署和调优。
  • 计算成本具有可行性:虽然增加了推理时的计算量,但其总成本大致只相当于进行一轮 GRPO 训练,这意味着它是一种无需重新训练模型、成本可控的性能提升方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
村民众筹30万元欲硬化通村路,10年间10人去世都未等来动工,街道办称尚在争取上级补助资金

村民众筹30万元欲硬化通村路,10年间10人去世都未等来动工,街道办称尚在争取上级补助资金

大风新闻
2025-11-02 10:04:07
欲哭无泪!东风本田几千人的二厂倒了,如今官宣卖地,要盖成住宅

欲哭无泪!东风本田几千人的二厂倒了,如今官宣卖地,要盖成住宅

火山诗话
2025-11-02 09:56:39
参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

蛙斯基娱乐中
2025-11-02 16:27:24
3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

狍子歪解体坛
2025-11-03 03:26:50
乱套了!大雨+大暴雨+降温!浙江人做好准备:马上突袭!这波冲击30℃

乱套了!大雨+大暴雨+降温!浙江人做好准备:马上突袭!这波冲击30℃

FM93浙江交通之声
2025-11-02 16:31:54
高三男生遭邻居驾车故意冲撞身亡案明日开庭,家属希望严惩肇事者

高三男生遭邻居驾车故意冲撞身亡案明日开庭,家属希望严惩肇事者

极目新闻
2025-11-02 19:07:41
张文宏院士:糖尿病可以吃的食物排名,不知道的糖友太亏了

张文宏院士:糖尿病可以吃的食物排名,不知道的糖友太亏了

荷兰豆爱健康
2025-11-02 07:55:38
“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

“上午立冬,冻死牛;下午立冬,暖烘烘”,2025年立冬是几点?

阿龙美食记
2025-10-30 09:52:04
政府停摆第31天,特朗普恼羞成怒提了个大胆建议,共和党后背发凉

政府停摆第31天,特朗普恼羞成怒提了个大胆建议,共和党后背发凉

军机Talk
2025-11-01 11:32:59
工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

大道微言
2025-11-01 08:58:16
律师行业崩了,近七成同行活得像行尸走肉

律师行业崩了,近七成同行活得像行尸走肉

麦小柒
2025-10-31 20:53:15
4-3拒爆冷!凌晨0点,王艺迪赢了:大心脏挽救赛点夺冠,王者国乒

4-3拒爆冷!凌晨0点,王艺迪赢了:大心脏挽救赛点夺冠,王者国乒

大秦壁虎白话体育
2025-11-03 00:07:32
嗨爆了!法国赛氛围无敌棒,莫雷加德客场4-1完胜勒布伦打进决赛

嗨爆了!法国赛氛围无敌棒,莫雷加德客场4-1完胜勒布伦打进决赛

乒谈
2025-11-02 21:28:17
突发特讯!美方通告全球:美军机连续坠入南海并非巧合,罕见措辞引爆国际舆论

突发特讯!美方通告全球:美军机连续坠入南海并非巧合,罕见措辞引爆国际舆论

在新加坡生活
2025-11-03 01:12:19
苏丹爆发大屠杀!数万人被杀尸体堆积如山

苏丹爆发大屠杀!数万人被杀尸体堆积如山

亚太观澜
2025-11-02 21:27:06
被抢到断货的千元羽绒服,究竟是谁在买?

被抢到断货的千元羽绒服,究竟是谁在买?

蓝鲸新闻
2025-11-02 00:35:13
筹码集中!最新股东户数环比减少30%以上的公司一览

筹码集中!最新股东户数环比减少30%以上的公司一览

A股数据表
2025-11-02 17:00:25
正式离队,杨瀚森发声,新球队曝光,赛季首次,女友官宣决定

正式离队,杨瀚森发声,新球队曝光,赛季首次,女友官宣决定

乐聊球
2025-11-02 08:32:07
鲍威尔深夜官宣,美国3年骗局被拆穿,中国股市将迎来史诗级暴涨?

鲍威尔深夜官宣,美国3年骗局被拆穿,中国股市将迎来史诗级暴涨?

烈史
2025-11-02 07:35:24
黄金税收新规来了,你媳妇手上的金镯子未来可能卖不动了。

黄金税收新规来了,你媳妇手上的金镯子未来可能卖不动了。

流苏晚晴
2025-11-02 16:34:00
2025-11-03 05:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

本地
家居
数码
艺术
时尚

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

家居要闻

吸睛艺术 富有传奇色彩

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

艺术要闻

陈丹青 无论画风与文风,都具有一种优雅而朴素,睿智而率真的气质

最近很火的发型,原来这么简单!

无障碍浏览 进入关怀版