网易首页 > 网易号 > 正文 申请入驻

哈佛新研究:LLM推理无需强化学习

0
分享至

无需强化学习(RL)、验证器、CoT,语言模型也能「解锁」推理能力?

一项新研究证明:只需在基础语言分布上进行测试时采样,即可获得与GRPO相当(甚至更好)的性能!

无需训练,还可适用于不可验证的领域。

作者为哈佛大学计算机科学助理教授 Yilun Du 和博士生 Aayush Karan。

1️⃣ 背景
强化学习提升了LLM在数学、编程和科学等前沿领域的问题解决能力。然而:强化学习在多大程度上能够激发出基础 LLM 中原本不存在的新行为?

研究团队写道,“悲观的证据表明,像GRPO这样的RL算法在pass@k指标上表现不如基础模型,并表现出生成多样性的损失。”

2️⃣ 方法
受马尔可夫链蒙特卡洛(MCMC)的启发,他们提出了一种利用基础模型自身似然函数的简单迭代采样算法。

具体而言,由于基础模型倾向于生成高似然的内容,他们提出从幂分布P^α中采样,自然地锐化基础LLM分布P。

直观地说,P^α对未来路径高度敏感,它会强烈降低那些会导致模型陷入低似然结果的token权重。这种类似“规划”的机制,对于推理类任务来说非常具有价值。然而,直接从P^α中采样是不可行的,因为它需要在指数级大的序列空间上进行归一化。

他们采用Metropolis-Hastings(一种MCMC算法)近似采样器,通过部分重采样新的候选内容、并根据P^α的概率决定是否接受,迭代改进生成结果。

为了使这种方法适用于LLM,他们将Metropolis-Hastings整合进自回归生成中,从而逐块构建来自P^α的样本。

3️⃣ 结果
实验结果显示,在无需额外训练或验证器的情况下,他们的采样器在多个领域和基础模型上实现了与GRPO相当的 single-shot 准确率,甚至在一些跨领域任务(如编程)以及无法验证的任务(如AlpacaEval)中超越过了GRPO。

他们认为,基础模型本身在推理方面的潜力远超传统采样方法所呈现的水平。同时,设计更好的LLM采样器在通用语言领域中(不仅限于可验证推理任务)也具有广泛的应用价值。 #大模型 #推理 #强化学习 #论文 #学术

paper:Reasoning with Sampling: Your Base Model is Smarter Than You Think















特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

FM93浙江交通之声
2025-11-02 06:05:42
4999 的 iPhone16 Pro,真的太离谱了

4999 的 iPhone16 Pro,真的太离谱了

花果科技
2025-11-01 13:03:20
闻泰给荷兰下“死令”:做不到一件事,安世半导体别想从中国出口

闻泰给荷兰下“死令”:做不到一件事,安世半导体别想从中国出口

古事寻踪记
2025-11-02 07:26:26
莫兰特被禁赛引交易猜想!狼媒列两套方案:6换2或拉黄蜂成第三方

莫兰特被禁赛引交易猜想!狼媒列两套方案:6换2或拉黄蜂成第三方

颜小白的篮球梦
2025-11-02 07:14:50
离婚7年,刘丹爆料影响刘恺威形象,杨幂担忧成真

离婚7年,刘丹爆料影响刘恺威形象,杨幂担忧成真

甜菊汽水
2025-11-02 06:13:09
心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

可达鸭面面观
2025-10-11 15:09:06
王建国与爱奇艺副总裁小红结婚,后者为三档爆款节目总导演

王建国与爱奇艺副总裁小红结婚,后者为三档爆款节目总导演

草莓解说体育
2025-10-27 02:33:04
40岁C罗获评8.2分+MVP:无敌反越位破门+读秒点射绝杀,太牛了

40岁C罗获评8.2分+MVP:无敌反越位破门+读秒点射绝杀,太牛了

侧身凌空斩
2025-11-02 04:01:54
蒋介石唯独不敢动周恩来?如果动他:估计老蒋整个嫡系都得反!

蒋介石唯独不敢动周恩来?如果动他:估计老蒋整个嫡系都得反!

品茗谈史论世事
2025-10-31 14:48:40
香港“幽默祖师”冯淬帆离世,无儿女晚景凄凉 悼念许绍雄话成真

香港“幽默祖师”冯淬帆离世,无儿女晚景凄凉 悼念许绍雄话成真

八斗小先生
2025-11-01 14:55:07
恒大幕后黑手曝光:刚被“抄家”的许家印,很可能是只“替罪羊”

恒大幕后黑手曝光:刚被“抄家”的许家印,很可能是只“替罪羊”

史行途
2025-11-01 11:40:29
市政协副主席王红侠,跨省任副市长

市政协副主席王红侠,跨省任副市长

新京报政事儿
2025-11-01 09:59:40
最美腰臀比,全钟瑞被爆料臀部注射玻尿酸?对比3年前身材有出入

最美腰臀比,全钟瑞被爆料臀部注射玻尿酸?对比3年前身材有出入

艳姐的搞笑视频
2025-10-30 11:58:35
他在狱中亲眼见吴石将军,受电刑不吐一字,最后那餐只说了一句!

他在狱中亲眼见吴石将军,受电刑不吐一字,最后那餐只说了一句!

云霄纪史观
2025-11-01 09:13:37
凌晨3点,浙江此地全是人!有人半夜从上海、江苏赶来!老板被“逼”上班

凌晨3点,浙江此地全是人!有人半夜从上海、江苏赶来!老板被“逼”上班

FM93浙江交通之声
2025-11-01 19:43:42
孩子上到初三才明白:约束小朋友接触电子设备,差异令人震惊

孩子上到初三才明白:约束小朋友接触电子设备,差异令人震惊

今天说故事
2025-09-20 18:28:34
她赴英留学,却与上千外国男子拍爱情动作片,父母与她断绝关系

她赴英留学,却与上千外国男子拍爱情动作片,父母与她断绝关系

阿胡
2024-10-23 12:37:41
退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

罪案洞察者
2025-09-23 14:37:35
WTT冠军赛:王艺迪3-0!1-6落后11-9逆转,横扫张本美和进4强?

WTT冠军赛:王艺迪3-0!1-6落后11-9逆转,横扫张本美和进4强?

刘姚尧的文字城堡
2025-11-02 04:22:57
谁在歌颂颜色革命?

谁在歌颂颜色革命?

抽屉电影2018
2025-10-30 08:25:03
2025-11-02 08:35:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1407文章数 5081关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

教育
时尚
本地
旅游
家居

教育要闻

2026高考报名,这八处变化一定要了解!

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

旅游要闻

馆藏文物超10万件,大埃及博物馆举行开放庆典

家居要闻

吸睛艺术 富有传奇色彩

无障碍浏览 进入关怀版