网易首页 > 网易号 > 正文 申请入驻

1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

0
分享至

新智元报道

编辑:alan

【新智元导读】1/10训练数据激发高级推理能力!近日,来自清华的研究者提出了PRIME,通过隐式奖励来进行过程强化,提高了语言模型的推理能力,超越了SFT以及蒸馏等方法。

Tell me and I forget, teach me and I remember, involve me and I learn. 告诉我,我会忘记,教我,我会记住,让我参与,我就能学会。 ——本杰明·富兰克林

打破数据墙,我们还能做些什么?

近日,来自清华UIUC等机构的研究者提出了PRIME(Process Reinforcement through IMplicit REwards):通过隐式奖励来进行过程强化。

GitHub地址:https://github.com/PRIME-RL/PRIME

这是一种带有过程奖励的在线RL开源解决方案,可以提高语言模型的推理能力,超越了SFT(监督微调)或者蒸馏等方法。

对比SFT,PRIME让模型在重要基准测试上实现了巨大提升:平均提高了16.7%,在AMC和AIME中都提高了20%以上。

Eurus-2-7B-PRIME与Qwen2.5-Math-7B-Instruct,使用了相同的base model(Qwen-2.5-Math-7B),但在上表的6项测试中,5项都超越了instruct版本,同时也超越了GPT-4o。

而这个成绩只用了Qwen Math 1/10的数据资源(230K SFT + 150K RL)!

作者发布了本研究中使用的所有模型和数据,感兴趣的读者请见文后链接。

过程奖励模型

热身阶段(SFT)

如前所述,选择Qwen2.5-Math-7B-Base作为起点,然后上点难度,采用竞赛级别的数学和编程基准,包括AIME 2024、AMC、MATH-500、Minerva Math、OlympiadBench、LeetCode和LiveCodeBench(v2)。

首先对基础模型进行监督微调,以获得RL的入门模型(教模型学习某些推理模式)。

为此,研究人员设计了一个以动作为中心的链式推理框架,策略模型在每个步骤中选择7个动作中的一个,并在执行每个动作后停止。

为了构建SFT数据集,研究者从几个开源数据集中收集了推理指令。

值得注意的是,对于许多具有真实答案的数据集,作者选择将其保留用于之后的RL训练,目的是让SFT和RL使用不同的数据集,以使RL中的探索多样化,并且作者认为在PL中真实标签更加重要。

作者用LLaMA-3.1-70B-Instruct来回答指令,并使用系统提示要求模型执行以动作为中心的思维链。

隐式PRM

下面接入过程奖励模型(PRM),这里采用隐式PRM,只需要在响应级别标签上训练ORM。

过程奖励模型简单理解就是对每个推理步骤进行评分,举个例子:

PRM是以这种粒度来评价响应的。

在本文的隐式PRM中,可以使用以下方式免费获得过程奖励:

通过简单地收集响应水平数据和训练ORM来获得PRM,而无需注释步骤标签。

这与ORM训练目标的具体选择无关,比如使用交叉熵损失来实例化隐式PRM,就可以替换成:

强化学习

本文的目标是广泛利用强化学习(RL)来提高推理能力。针对这种资源有限的情况,作者总结了一些最佳实践:

从Ground Truth验证器和高质量数据开始:作者进行了严格的数据收集和清理,以获得可验证的RL数据,并发现仅使用结果验证器足以构建强大的基线。 作者比较了不同的RL算法得出结论,无价值模型的REINFORCE类方法足够有效。 使用「mid-difficulty」问题进行稳定训练:作者提出了一种名为在线提示过滤器的机制,通过过滤掉困难和简单的问题,在很大程度上稳定了RL训练。
使用PRM进行强化学习

将PRM集成到在线强化学习中并非易事,这里有几个需要解决的关键挑战。

如何为强化学习提供密集奖励?

奖励稀疏性一直是强化学习中长期存在的问题。到目前为止,我们仍然没有特别好的解决方案来为LLM的在线强化学习构建密集奖励。

以前的方法主要是为密集奖励建立一个额外的价值模型,众所周知,这样的模型很难训练,而且性能提升不大。

根据前文对隐式PRM的介绍,使用

可以免费从隐式PRM中获得token级别的过程奖励。

这种方式可以直接取代PPO中的价值模型,非常容易与任何优势估计函数和结果奖励相结合。在实践中,作者将过程奖励与REINFORCE、RLOO、GRPO、ReMax和PPO集成在一起,并进行了细微的修改。

如何设置一个好的PRM来启动RL?

即使我们找到了在RL中使用过程奖励的途径,训练好的PRM也并非易事:需要收集大规模(过程)奖励数据(很贵),并且模型应该在泛化和分布偏移之间取得良好的平衡。

隐式PRM本质上是一种语言模型。因此从理论上讲,可以使用任何语言模型作为PRM。在实践中,作者发现最初的策略模型本身就是的一个很好的选择。

如何在线更新PRM以防止奖励黑客攻击?

在线RL中,避免RM被过度优化或被黑客入侵至关重要,这需要RM与策略模型一起不断更新。然而,鉴于步骤标签的成本很高,在RL训练期间很难更新PRM,——可扩展性和泛化问题。

但是,本文的隐式PRM仅要求更新结果标签。也就是说,使用结果验证器即可在训练期间轻松更新PRM。

此外,还可以进行双重转发:首先使用策略部署更新PRM,然后使用更新的PRM重新计算过程奖励,从而提供更准确的奖励估算。

PRIME算法

下图表示PRIME算法的整个循环:

策略模型和PRM都使用SFT模型进行初始化。对于每个RL迭代,策略模型首先生成输出。然后,隐式PRM和结果验证器对输出进行评分,隐式PRM在输出时通过结果奖励进行更新。最后,将结果奖励ro和过程奖励rp组合在一起,用于更新策略模型。

以下是算法的伪代码:

实验

默认情况下,使用SFT模型初始化隐式PRM,并保留SFT模型作为参考对数探测器。超参数方面,策略模型的学习率固定为5e-7,PRM学习率为1e-6,使用AdamW优化器,mini batchsize大小为256,micro batchsize为8。

rollout阶段收集256个提示,每个提示采样4个响应。PRM训练时β=0.05,所有实验中将KL系数设置为0。

将PRIME与仅带有结果验证器(OV)的RLOO进行比较,与稀疏奖励相比,PRIME将RL训练加速了2.5倍,并将最终奖励提高了6.9%,且方差更低。在下游任务上,PRIME的性能也始终优于OV。

下面展示PRM在线更新的重要性。比较两种设置:在线PRM使用Eurus-2-7B-SFT初始化,离线PRM使用EurusPRM-Stage1初始化。

从下图中可以看出,在线PRM在训练集和测试集上的性能都大大优于离线PRM。

参考资料:

https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

https://the-decoder.com/ai-learns-math-better-with-new-approach-that-uses-a-fraction-of-the-data/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
格拉斯纳执教水晶宫后5战红军3胜1平1负,他上任前水晶宫7年不胜

格拉斯纳执教水晶宫后5战红军3胜1平1负,他上任前水晶宫7年不胜

直播吧
2025-09-28 05:34:02
告别方正机身!三星S26 Ultra设计曝光,S Pen细节随之改变

告别方正机身!三星S26 Ultra设计曝光,S Pen细节随之改变

IT之家
2025-09-27 14:06:07
董璇张维伊晒婚纱照,男方发4张单人照被嘲,小酒窝主动叫爸爸

董璇张维伊晒婚纱照,男方发4张单人照被嘲,小酒窝主动叫爸爸

非常先生看娱乐
2025-09-27 18:46:36
俄军这一炸创造历史了,炸出“乌克兰广岛”:弹药耗尽倒计时开始

俄军这一炸创造历史了,炸出“乌克兰广岛”:弹药耗尽倒计时开始

木鱼军武堂
2025-07-06 16:24:46
终端市场,比亚迪热销插混全线溃败,多款车型销量雪崩

终端市场,比亚迪热销插混全线溃败,多款车型销量雪崩

辣椒车讯
2025-09-25 07:36:23
啊!威少加盟北京队?真要CBA大结局......

啊!威少加盟北京队?真要CBA大结局......

篮球实战宝典
2025-09-26 23:12:17
中国股市:为什么主力当天拉涨停之后,第二天就低开低走?你细品

中国股市:为什么主力当天拉涨停之后,第二天就低开低走?你细品

股经纵横谈
2025-09-27 19:52:22
黑老大聂磊被执行死刑,死前笑着说出一句话,让人细思极恐

黑老大聂磊被执行死刑,死前笑着说出一句话,让人细思极恐

纪实录
2024-09-28 22:16:46
研究发现:若晚餐经常吃太早,不超半年,胰腺或迎来9种不良变化

研究发现:若晚餐经常吃太早,不超半年,胰腺或迎来9种不良变化

今日养生之道
2025-09-26 13:50:00
乌媒:中国秘密采购俄罗斯BMD-4战车和章鱼坦克,对台湾构成威胁

乌媒:中国秘密采购俄罗斯BMD-4战车和章鱼坦克,对台湾构成威胁

零度Military
2025-09-27 06:59:51
西甲积分榜:皇马遭首败先赛仍居榜首,巴萨落后2分,马竞升至第4

西甲积分榜:皇马遭首败先赛仍居榜首,巴萨落后2分,马竞升至第4

直播吧
2025-09-28 00:34:25
几乎全是假货!利润高达2400%,为何有些消费者前赴后继争相购买

几乎全是假货!利润高达2400%,为何有些消费者前赴后继争相购买

来科点谱
2025-09-18 09:17:52
央视报道疑似释放信号,轰-20 距离正式亮相已不远!

央视报道疑似释放信号,轰-20 距离正式亮相已不远!

杨风
2025-09-26 21:33:11
佩通坦补选逆袭获胜!为泰党击败人民党,泰国政坛迎来历史突破

佩通坦补选逆袭获胜!为泰党击败人民党,泰国政坛迎来历史突破

娱乐督察中
2025-09-26 00:28:31
央视主持人姜丰被指变成酒鬼 一天喝5瓶万元的洋酒 离婚后久居英

央视主持人姜丰被指变成酒鬼 一天喝5瓶万元的洋酒 离婚后久居英

瞻史
2025-09-26 18:07:55
大牛股即将上桌?历史规律暗藏“大肉”——极简投研

大牛股即将上桌?历史规律暗藏“大肉”——极简投研

每日经济新闻
2025-09-27 19:27:09
扎哈罗娃警告:若基辅在欧破坏计划属实,或将引爆第三次世界大战

扎哈罗娃警告:若基辅在欧破坏计划属实,或将引爆第三次世界大战

俄罗斯卫星通讯社
2025-09-27 15:08:17
正名!世锦赛出局13天后,吴艳妮突破13秒大关:国内第1 断层领先

正名!世锦赛出局13天后,吴艳妮突破13秒大关:国内第1 断层领先

风过乡
2025-09-27 12:04:35
跨省履新2个月后,李建涛被补选为上饶市市长

跨省履新2个月后,李建涛被补选为上饶市市长

政知新媒体
2025-09-27 20:09:31
国民党第二场大辩论:5人面对面交锋,突然闪出大黑马!

国民党第二场大辩论:5人面对面交锋,突然闪出大黑马!

科普100克克
2025-09-27 21:14:23
2025-09-28 05:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13525文章数 66181关注度
往期回顾 全部

科技要闻

潘云鹤院士:未来AI发展三大趋势与中国机遇

头条要闻

特朗普下令向波特兰派兵:必要时将动用全部武力

头条要闻

特朗普下令向波特兰派兵:必要时将动用全部武力

体育要闻

带着一点点痛,郑钦文重新站到想她的观众面前

娱乐要闻

49岁舒淇再次让世界刮目相看

财经要闻

一碗汤换顾客北京一套房?西贝再遭吐槽

汽车要闻

华为全家桶/综合续航1400km 岚图泰山全球首秀

态度原创

本地
旅游
时尚
数码
公开课

本地新闻

云游中国 | 别找了 传说中的海上不夜城在海南

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

初秋衣服不必准备太多,这几件单品提前买好,简单百搭不挑人

数码要闻

ECS 精英上架Liva Z11 Plus 迷你主机:双网口

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版