网易首页 > 网易号 > 正文 申请入驻

哈佛新研究:LLM推理无需强化学习

0
分享至

无需强化学习(RL)、验证器、CoT,语言模型也能「解锁」推理能力?

一项新研究证明:只需在基础语言分布上进行测试时采样,即可获得与GRPO相当(甚至更好)的性能!

无需训练,还可适用于不可验证的领域。

作者为哈佛大学计算机科学助理教授 Yilun Du 和博士生 Aayush Karan。

1️⃣ 背景
强化学习提升了LLM在数学、编程和科学等前沿领域的问题解决能力。然而:强化学习在多大程度上能够激发出基础 LLM 中原本不存在的新行为?

研究团队写道,“悲观的证据表明,像GRPO这样的RL算法在pass@k指标上表现不如基础模型,并表现出生成多样性的损失。”

2️⃣ 方法
受马尔可夫链蒙特卡洛(MCMC)的启发,他们提出了一种利用基础模型自身似然函数的简单迭代采样算法。

具体而言,由于基础模型倾向于生成高似然的内容,他们提出从幂分布P^α中采样,自然地锐化基础LLM分布P。

直观地说,P^α对未来路径高度敏感,它会强烈降低那些会导致模型陷入低似然结果的token权重。这种类似“规划”的机制,对于推理类任务来说非常具有价值。然而,直接从P^α中采样是不可行的,因为它需要在指数级大的序列空间上进行归一化。

他们采用Metropolis-Hastings(一种MCMC算法)近似采样器,通过部分重采样新的候选内容、并根据P^α的概率决定是否接受,迭代改进生成结果。

为了使这种方法适用于LLM,他们将Metropolis-Hastings整合进自回归生成中,从而逐块构建来自P^α的样本。

3️⃣ 结果
实验结果显示,在无需额外训练或验证器的情况下,他们的采样器在多个领域和基础模型上实现了与GRPO相当的 single-shot 准确率,甚至在一些跨领域任务(如编程)以及无法验证的任务(如AlpacaEval)中超越过了GRPO。

他们认为,基础模型本身在推理方面的潜力远超传统采样方法所呈现的水平。同时,设计更好的LLM采样器在通用语言领域中(不仅限于可验证推理任务)也具有广泛的应用价值。 #大模型 #推理 #强化学习 #论文 #学术

paper:Reasoning with Sampling: Your Base Model is Smarter Than You Think















特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
除夕夜官宣:苹果春季发布会3月4日在中国上海举行!

除夕夜官宣:苹果春季发布会3月4日在中国上海举行!

PChome电脑之家
2026-02-16 22:30:43
赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

赢了官司却亏到吐血!嫣然医院搬家,房东成年度最大笑话!

达文西看世界
2026-01-20 13:35:51
订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

梅子的小情绪
2026-01-16 21:09:56
揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

揪心!谷爱凌脑出血休克,癫痫发作濒死边缘,母亲泪崩曝细节

古事寻踪记
2026-02-06 07:13:45
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
火上人民日报!重庆高速一货车载一辆自行车,网友:最温柔的年货

火上人民日报!重庆高速一货车载一辆自行车,网友:最温柔的年货

火山詩话
2026-02-16 17:42:02
被打脸!除夕,《匿杀》等票房要哭,《镖人》等预售破5亿!

被打脸!除夕,《匿杀》等票房要哭,《镖人》等预售破5亿!

星夜涟漪
2026-02-17 02:13:30
撒贝宁的眉毛再上热搜,“依旧像蜡笔小新”;尼格买提:他这叫寿眉,不要欺负老人家

撒贝宁的眉毛再上热搜,“依旧像蜡笔小新”;尼格买提:他这叫寿眉,不要欺负老人家

大象新闻
2026-02-16 22:43:04
程潇:这姐一直都是,汹涌澎湃的

程潇:这姐一直都是,汹涌澎湃的

手工制作阿歼
2026-02-06 11:10:47
怪不得解放军不拦,国民党发现不对劲,美国售台坦克果然有问题!

怪不得解放军不拦,国民党发现不对劲,美国售台坦克果然有问题!

一簌月光
2026-02-16 13:06:51
女孩从陕西嫁到重庆,过年本来准备带宝宝回老家看父母,结果母亲让她不要回去了。

女孩从陕西嫁到重庆,过年本来准备带宝宝回老家看父母,结果母亲让她不要回去了。

张晓磊
2026-02-15 11:11:05
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
山东人是对父母最不好的省份,山东人认可吗?

山东人是对父母最不好的省份,山东人认可吗?

王姐懒人家常菜
2026-02-16 21:16:35
军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

朝子亥
2026-02-15 15:50:03
穆帅:当年为皇马倾尽所有;我说明白,合同条款和皇马无关

穆帅:当年为皇马倾尽所有;我说明白,合同条款和皇马无关

顺静自然
2026-02-17 06:07:57
朱之文女儿大婚仅1天,男方被扒底朝天,500万陪嫁传闻是冰山一角

朱之文女儿大婚仅1天,男方被扒底朝天,500万陪嫁传闻是冰山一角

寒士之言本尊
2026-02-15 11:07:01
他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

他都退休了,因战略眼光出众,又被军委召回担任要职,获上将军衔

云霄纪史观
2025-12-23 01:40:09
确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

确认是假货!涉及多个大牌,网友:天塌了,我说怎么那么便宜?

浙江之声
2026-02-13 13:11:59
工龄40年,江苏60岁教师的养老金真是不错!

工龄40年,江苏60岁教师的养老金真是不错!

乐天果果
2026-02-16 17:32:07
湖南女外卖员戴燕执行死刑,被押火葬场,结束罪恶一生

湖南女外卖员戴燕执行死刑,被押火葬场,结束罪恶一生

徐侠客有话说
2025-07-18 15:21:44
2026-02-17 06:56:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

家居
艺术
本地
亲子
军事航空

家居要闻

中古雅韵 乐韵伴日常

艺术要闻

名家笔下话过年,别有风味!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

小孩收到压岁钱,该怎么办?枕头底下垫红包

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版