网易首页 > 网易号 > 正文 申请入驻

哈佛新研究:LLM推理无需强化学习

0
分享至

无需强化学习(RL)、验证器、CoT,语言模型也能「解锁」推理能力?

一项新研究证明:只需在基础语言分布上进行测试时采样,即可获得与GRPO相当(甚至更好)的性能!

无需训练,还可适用于不可验证的领域。

作者为哈佛大学计算机科学助理教授 Yilun Du 和博士生 Aayush Karan。

1️⃣ 背景
强化学习提升了LLM在数学、编程和科学等前沿领域的问题解决能力。然而:强化学习在多大程度上能够激发出基础 LLM 中原本不存在的新行为?

研究团队写道,“悲观的证据表明,像GRPO这样的RL算法在pass@k指标上表现不如基础模型,并表现出生成多样性的损失。”

2️⃣ 方法
受马尔可夫链蒙特卡洛(MCMC)的启发,他们提出了一种利用基础模型自身似然函数的简单迭代采样算法。

具体而言,由于基础模型倾向于生成高似然的内容,他们提出从幂分布P^α中采样,自然地锐化基础LLM分布P。

直观地说,P^α对未来路径高度敏感,它会强烈降低那些会导致模型陷入低似然结果的token权重。这种类似“规划”的机制,对于推理类任务来说非常具有价值。然而,直接从P^α中采样是不可行的,因为它需要在指数级大的序列空间上进行归一化。

他们采用Metropolis-Hastings(一种MCMC算法)近似采样器,通过部分重采样新的候选内容、并根据P^α的概率决定是否接受,迭代改进生成结果。

为了使这种方法适用于LLM,他们将Metropolis-Hastings整合进自回归生成中,从而逐块构建来自P^α的样本。

3️⃣ 结果
实验结果显示,在无需额外训练或验证器的情况下,他们的采样器在多个领域和基础模型上实现了与GRPO相当的 single-shot 准确率,甚至在一些跨领域任务(如编程)以及无法验证的任务(如AlpacaEval)中超越过了GRPO。

他们认为,基础模型本身在推理方面的潜力远超传统采样方法所呈现的水平。同时,设计更好的LLM采样器在通用语言领域中(不仅限于可验证推理任务)也具有广泛的应用价值。 #大模型 #推理 #强化学习 #论文 #学术

paper:Reasoning with Sampling: Your Base Model is Smarter Than You Think















特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

沧海旅行家
2026-03-26 13:46:41
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

徐静波静说日本
2026-03-25 08:10:07
成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

封面新闻
2026-03-25 21:28:05
日本内阁官房长官就“强闯使馆”事件表态

日本内阁官房长官就“强闯使馆”事件表态

新浪财经
2026-03-25 18:48:42
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

懂球帝
2026-03-26 14:02:09
出了一身臭汗,洗澡睡觉……

出了一身臭汗,洗澡睡觉……

乡野小珥
2026-03-26 12:26:29
科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

观察宇宙
2026-03-25 20:24:45
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

小月故事
2026-03-19 17:08:37
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

每日经济新闻
2026-03-25 16:15:05
CIA前局长称相比特朗普更相信伊朗方面的表述

CIA前局长称相比特朗普更相信伊朗方面的表述

极目新闻
2026-03-25 14:10:05
40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

近史博览
2026-03-26 09:52:59
2026-03-26 14:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
艺术
亲子
数码

家居要闻

傍海而居 静观蝴蝶海

本地新闻

春日吃花第三站——广东

艺术要闻

哪一座桥不是风景?

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

无障碍浏览 进入关怀版