网易首页 > 网易号 > 正文 申请入驻

攻克AI推理难题!清华团队提出「统一LLM强化学习新范式」ReST-RL

0
分享至


大语言模型(LLM)真的会推理吗?业内对此争论不休。

这是因为,当前的 LLM 在面对复杂代码、多步逻辑和抽象任务时依然经常“翻车”,表现出逻辑跳跃、步骤混乱、答非所问等诸多问题。

靠人教?太慢。靠奖励?信号太弱。靠验证?数据太贵。如何兼顾推理能力、训练效率与通用性,已成为业内难题。

针对这些难题,清华大学计算机科学与技术系知识工程研究室(KEG)团队提出了一种统一的 LLM 强化学习(RL)新范式——ReST-RL。该方法通过将改进的 GRPO 算法与精心设计的由价值模型(VM)辅助的测试时解码方法相结合,在提升 LLM 推理能力的同时,也兼顾了效率、稳定性与可拓展性。


论文链接:

https://arxiv.org/abs/2508.19576

实验结果显示,在 APPS、BigCodeBench 和 HumanEval 等不同级别的知名编程基准上,ReST-RL 的性能优于其他强化训练基线(如原始 GRPO 和 ReST-DPO),以及解码和验证基线(如 PRM-BoN 和 ORM-MCTS)

这表明,ReST-RL 在增强 LLM 策略的推理能力方面潜力巨大,且为 LLM 的强化学习路径提供了新思路。

现有RL方法难实现真正推理

越来越多的研究表明,RL 能够提升 LLM 的推理能力,这一方向也成为当前的研究热点。

其中一些方法采用在线 RL,即数据采样与模型更新同步进行,代表性方法为群体相对策略优化(GRPO);其它方法则主张通过离线采样与筛选机制获取训练数据,这一范式通常被称为自训练,其代表方法是强化自训练(ReST)。尽管训练机制不同,这两类方法均能有效提升 LLM 的推理能力。

奖励模型(RMs)因其在输出验证中的重要作用,正受到越来越多的关注。已有研究表明,对 LLM 最终输出进行验证的结果奖励模型(ORM)可以提升推理准确性。多种过程奖励模型(PRMs)也被用于为中间步骤提供反馈,其验证效果优于 ORM。

然而,这些方法仍存在不足。方面,以 GRPO 为代表的在线 RL 算法,常因奖励信号差异微弱而导致训练效果不理想。尽管部分研究尝试通过设计逐步奖励或引入简单的动态采样机制缓解该问题,但这往往带来更高的计算成本与较差的泛化能力,也使 RL 算法更为复杂。另一方面,尽管 PRMs 在验证输出方面优于 ORMs,但其训练过程通常依赖高质量的标注数据。由于数据标注成本较高,PRM 的训练数据难以扩展,从而限制了其准确性与可靠性。

有研究提出通过蒙特卡洛模拟(Monte Carlo simulations)估计并收集过程奖励。但是,这些方法难以推广至更复杂的推理任务,其对结果匹配机制的依赖也限制了适用范围。

总体来看,现有方法难以在数据采集成本、泛化能力、强化效果与训练效率之间实现全面平衡。

ReST-RL:训练、推理双重优化

ReST-RL 为解决训练奖励差异和 PRM 准确性问题,提供了新的可能。该方法由两个主要部分组成,分别是 ReST-GRPO(基于群体相对策略优化的强化自训练方法) 和 VM-MCTS(基于价值模型的蒙特卡洛树搜索)。


图|ReST-RL 框架

ReST-GRPO 采用优化后的 ReST 算法执行 GRPO,从而提升策略在复杂推理任务中的能力。该方法利用策略本身对训练数据进行筛选与组合,有效缓解了 GRPO 奖励失效的问题,增强了策略生成可靠推理轨迹的能力。

LLM 的输出解答及其对应的奖励中蕴含着丰富信息,反映其在目标任务域中的优势与短板,这些信息可用于过滤掉无效的训练数据。

研究团队采用标准差评估奖励的多样性。对于其所有解答的奖励标准差低于预设阈值 σ₀ 的提示语,将其从训练集中剔除。训练过程聚焦于那些高奖励的解答轨迹,并最终利用其部分解状态构建新的训练数据。

与普通 GRPO 相比,ReST-GRPO 能够显著提升训练过程中的奖励方差。


图|策略训练过程中组奖励标准差的分布。

VM-MCTS 则用于 LLM 测试阶段解码。其中,价值模型(VM)的作用类似于 PRM,不仅提供验证信号,还能引导 LLM 策略探索更有潜力的推理路径。VM 的价值目标用于评估包含最后一步在内的整个部分状态,而非单一动作或步骤。它自然地反映了策略从当前局部状态到达高奖励终态zan的潜力,可在解码过程中为策略提供辅助。

在为 VM 收集训练数据时,他们采用 MCTS 方法,以在探索不同推理路径和利用高潜力中间状态之间取得平衡。一旦收集到足够的价值目标数据,即可训练 VM 去预测各类状态的价值。

使用该方法训练得到的 VM 能够准确预测当前策略下部分状态的预期奖励。该算法通过价值估计来决定应当探索和解码哪些路径,从而提高搜索的效率与准确性。

研究团队通过大量编码问题实验,验证了所提出 RL 范式及其各组成部分的有效性,证明 ReST-RL 不仅能够增强 LLM 策略的推理能力,同时在效率、成本和泛化性等方面实现了较好的平衡。

结果表明,ReST-RL 及其组件在性能上全面优于其他强化学习基线方法(如原始 GRPO 和 ReST-DPO),以及解码与验证基线方法(如 PRM-BoN 和 ORM-MCTS)。

在相同训练步数下进行测试对比表明,ReST-GRPO 相较于原始 GRPO 和 DAPO 拥有更高的训练效率

在解码验证预算相同的条件下,VM-MCTS 及其 VM 在准确性方面,优于此前基于公开数据训练的 Math-Shepherd 风格 PRM 或 ORM


图|训练效率与预算内验证能力的测试。

局限与未来方向

尽管各项实验证明了ReST-RL的有效性,但该方法仍存在一定的局限性。

例如,研究尚未在代码推理以外的任务(如数学推理和常识推理)中对其进行验证。虽然该方法框架并不局限于代码任务,但在其他场景下的应用可能需要重新设计合适的奖励机制和实验超参数。

另外,部分实验设置对最终结果的具体影响也尚未得到系统性分析。

研究团队还表示,价值模型在域外任务中的准确性仍缺乏充分研究,后续工作将进一步探索 ReST-RL 在更广泛任务中的泛化能力。

整理:小羊

如需转载或投稿,请直接在公众号内留言

智谱上线 Glm Coding Plan

20 元包月,「1/7 价格、3 倍用量」

畅享 Claude Code 编码体验

开发者用了都说好

欢迎体验~


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么孩子永远不会内耗?网友分享小孩治内耗的招,成年人看呆了

为什么孩子永远不会内耗?网友分享小孩治内耗的招,成年人看呆了

墙头草
2025-09-14 08:04:25
海底捞小便门后续:两位熊孩子家长背景曝光,家长:要倾家荡产了

海底捞小便门后续:两位熊孩子家长背景曝光,家长:要倾家荡产了

刘森森
2025-09-14 16:13:18
110年前,一位安徽人为兰州命名了一个非常高大上的地名

110年前,一位安徽人为兰州命名了一个非常高大上的地名

陇史荟王文元
2025-09-13 21:18:30
再过5年,180万的房产大概值多少钱?孙宏斌与王健林说法一致

再过5年,180万的房产大概值多少钱?孙宏斌与王健林说法一致

博览历史
2025-09-13 18:28:03
王楚钦重回世界第一!以4-0横扫夺冠,雨果超越张本智和升第三

王楚钦重回世界第一!以4-0横扫夺冠,雨果超越张本智和升第三

烧体坛
2025-09-14 20:30:51
灼灼韶华:宋萍太狠了!原来,这就是宋萍不给陈二顺生孩子的原因

灼灼韶华:宋萍太狠了!原来,这就是宋萍不给陈二顺生孩子的原因

阿讯说天下
2025-09-14 00:26:05
猴面包树在广东结果了,比非洲的还大!网友:好吃吗

猴面包树在广东结果了,比非洲的还大!网友:好吃吗

环球网资讯
2025-09-13 19:51:04
扛过去就是肖战,扛不过去就是于朦胧!终于体会到肖战那句话了

扛过去就是肖战,扛不过去就是于朦胧!终于体会到肖战那句话了

娱乐小丸子
2025-09-12 11:26:19
卡塔尔前王妃离奇去世:爱马仕RM成堆,却说奢侈品店买不到自由…

卡塔尔前王妃离奇去世:爱马仕RM成堆,却说奢侈品店买不到自由…

芳芳历史烩
2025-09-14 04:11:54
不会让你吃饱,但又饿不死,让你很难受。你敢歇息吗?

不会让你吃饱,但又饿不死,让你很难受。你敢歇息吗?

流苏晚晴
2025-09-10 20:22:42
连锁反应来了!卡塔尔公开感谢中国,红旗-9或重启,美罕见谴责以

连锁反应来了!卡塔尔公开感谢中国,红旗-9或重启,美罕见谴责以

文雅笔墨
2025-09-14 14:24:17
汪小菲赢麻了!万万没想到!麻六记赠送的糖葫芦都是现串现蘸的!

汪小菲赢麻了!万万没想到!麻六记赠送的糖葫芦都是现串现蘸的!

小娱乐悠悠
2025-09-14 12:30:28
战神回归!新机官宣:9月15日,正式发布登场!

战神回归!新机官宣:9月15日,正式发布登场!

科技堡垒
2025-09-14 12:01:53
网球名宿对阿尔卡拉兹美网夺冠后的前景表示担忧:别成为行尸走肉

网球名宿对阿尔卡拉兹美网夺冠后的前景表示担忧:别成为行尸走肉

搏击江湖
2025-09-14 20:30:23
大瓜!疑表姐发文:于朦胧准备出国,聚餐3男1女愿给赔偿,曝更多内情

大瓜!疑表姐发文:于朦胧准备出国,聚餐3男1女愿给赔偿,曝更多内情

扒星人
2025-09-13 12:09:47
​民调出炉蓝营地震!郝龙斌临阵退缩 傅崐萁遭质疑,赵少康悄然

​民调出炉蓝营地震!郝龙斌临阵退缩 傅崐萁遭质疑,赵少康悄然

比利
2025-09-14 16:48:38
堕落!中超传奇球星长期酗酒,女友被气走,如今后悔:酒精毁了我

堕落!中超传奇球星长期酗酒,女友被气走,如今后悔:酒精毁了我

国足风云
2025-09-14 10:09:34
邓文迪两个女儿拿到160亿财产!默多克正式分家产,豪门太精彩了

邓文迪两个女儿拿到160亿财产!默多克正式分家产,豪门太精彩了

巷子里的历史
2025-09-10 08:43:24
炸裂,网友爆料云南一地早上查酒驾,车主欲哭无泪,咋回事?

炸裂,网友爆料云南一地早上查酒驾,车主欲哭无泪,咋回事?

眼光很亮
2025-09-14 20:53:53
西贝事件再升级!袋装食品曝光,于东来下场,西贝后续操作惹争议

西贝事件再升级!袋装食品曝光,于东来下场,西贝后续操作惹争议

以茶带书
2025-09-13 14:36:58
2025-09-14 22:55:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注人工智能、生命科学等前沿科学进展。
1374文章数 5078关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

45岁二胎妈妈找工作:面试导购被卡年龄 就要45岁以下

头条要闻

45岁二胎妈妈找工作:面试导购被卡年龄 就要45岁以下

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

本地
家居
健康
教育
亲子

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

家居要闻

原木风格 温馨舒适氛围

内分泌科专家破解身高八大谣言

教育要闻

知名大学院长被曝学术不端

亲子要闻

43岁男星官宣三胎

无障碍浏览 进入关怀版