网易首页 > 网易号 > 正文 申请入驻

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

0
分享至

余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。研究兴趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。

然而,现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性,依赖规则验证器的方法难以拓展到通用领域上。

针对这一关键挑战,清华大学自然语言处理实验室提出了一项关键性技术 —— 基于参考概率奖励的强化学习(Reinforcement Learning with Reference Probability Reward,RLPR)。

  • 论文标题:RLPR: Extrapolating RLVR to General Domains without Verifiers
  • 论文地址:https://github.com/OpenBMB/RLPR/blob/main/RLPR_paper.pdf
  • GitHub 仓库:https://github.com/OpenBMB/RLPR

这项技术通过 Prob-to-Reward 方法显著提高了概率奖励(Probability-based Reward, PR)的质量,相比基于似然度的基线方法取得了明显更佳的性能优势和训练稳定性。

同时,RLPR 提出基于奖励标准差的动态过滤机制,进一步提升强化学习的稳定性和性能提升。目前 RLPR 相关代码、模型、数据、论文均已开源。

PR 为何有效?挖掘模型的内在评估

研究团队观察到,大语言模型(LLM)在推理过程中对于参考答案的生成概率直接反映了模型对于本次推理的质量评估。也就是说,模型的推理越正确,其生成参考答案的概率通常就越高。

在论文中,研究团队给出了一个具体示例:当模型在输出 o2 中错误地把选项 A 排在了第二位时,可以观察到参考答案在第二个正确选项位置上的生成概率出现了显著下降。这一现象清晰地表明,PR 能够精准捕捉模型对于自身推理质量的判断,并且与模型推理的正确性表现出高度相关性。

PR 示例,更深的颜色代表更大的输出概率

RLPR 核心特点

领域无关的高效奖励生成

现有 RLVR 方法通常需要投入大量的人力和工程资源,为每个领域编写特定的验证规则,相比之下,RLPR 仅需要简单的一次前向传播(forward pass)就可以生成奖励分数。通过使用参考答案的生成概率均值作为奖励。这种方法能够有效地应对自然语言固有的复杂多样性。

如下图所示(右侧示例),基于规则匹配的方式无法识别出 y2 和 y3 和参考答案语义等价,而 RLPR 的 PR 机制准确地给予了这两个答案更高的分数。

RLPR 与现有 RLVR 范式的对比

奖励纠偏和动态过滤

基础的 PR 已经呈现出和回答质量很高的相关性,但是仍然受到问题和参考答案风格等无关因素的干扰(即存在偏差)。为此,研究团队提出构建一个不包含思维链过程(z)的对照奖励,并通过做差的方式去除无关因素对于分数的影响,实现奖励纠偏。

传统基于准确率(Accuracy Filtering)的样本过滤方法难以适用于连续的 PR 值。RLPR 提出基于奖励标准差的动态过滤机制,保留那些取得较高奖励标准差的样本用于训练,有效提升了训练的稳定性和效果。考虑到训练过程中奖励的标准差会持续变化,RLPR 进一步采用指数移动平均(EMA)的方式持续动态更新过滤阈值。

可靠的奖励质量和框架鲁棒性

研究团队通过 ROC-AUC 指标定量评估了不同来源奖励的质量。结果表明,PR 在 0.5B 规模即取得了显著优于规则奖励和验证器模型奖励的质量。同时,通用领域奖励质量随着模型能力的增强可以进一步提高到 0.91 水平。

PR 奖励质量优于规则奖励和验证器模型奖励

为了验证框架的鲁棒性,研究团队使用多种不同的训练模板结合 RLPR 训练 Qwen2.5 3B 模型,并观察到 RLPR 在不同训练模板上都可以取得稳定的性能提升。

RLPR 对不同训练模板的鲁棒性

研究团队还进一步在 Gemma、Llama 等更多系列的基座模型上进行实验,验证 RLPR 框架对于不同基座模型均可以稳定提升模型的推理能力,并超过了使用规则奖励的 RLVR 基线。

RLPR 在 Gemma、Llama、Qwen 等不同基座模型上均稳定提升推理能力

总结

RLPR 提出了创新的 Prob-to-Reward 奖励机制,解决了现有 RLVR 范式的领域依赖问题。通过在 Gemma、Llama、Qwen 等主流模型系列上的广泛验证,RLPR 不仅证明了其卓越的有效性和相对于传统规则奖励的显著优势,更在推动强化学习(RL)向更大规模(scaling)发展的道路上,迈出了坚实而有力的一步。

更多研究细节,可参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

1984年,张宗逊之子张又侠8个多小时拿下松毛岭:预备队还没上呢

历史龙元阁
2026-01-20 10:40:11
王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

奥拜尔
2026-01-24 23:43:02
白宫发布特朗普与企鹅走向格陵兰岛AI图片!丹麦国防部称“北极耐力”军演将持续到2026年底

白宫发布特朗普与企鹅走向格陵兰岛AI图片!丹麦国防部称“北极耐力”军演将持续到2026年底

每日经济新闻
2026-01-24 13:18:06
女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

以茶带书
2026-01-24 17:15:26
不打了!再见字母哥!NBA将诞生轰动大交易

不打了!再见字母哥!NBA将诞生轰动大交易

篮球实战宝典
2026-01-24 19:32:41
张又侠、刘振立涉嫌严重违纪违法被立案审查调查

张又侠、刘振立涉嫌严重违纪违法被立案审查调查

界面新闻
2026-01-24 15:04:32
U23国足噩梦开局!6战首次丢球,李昊无能为力,彭啸太郁闷

U23国足噩梦开局!6战首次丢球,李昊无能为力,彭啸太郁闷

奥拜尔
2026-01-24 23:17:06
刘卫东被查前,干了两件最不要脸的事。

刘卫东被查前,干了两件最不要脸的事。

南权先生
2025-12-18 16:50:39
武汉、宜昌入选!全国拟开展有奖发票试点城市名单公示

武汉、宜昌入选!全国拟开展有奖发票试点城市名单公示

极目新闻
2026-01-24 13:48:17
广州交警公布一起典型事故:电动自行车驾驶人违规被撞致死,其承担事故全部责任,小车司机无责

广州交警公布一起典型事故:电动自行车驾驶人违规被撞致死,其承担事故全部责任,小车司机无责

大风新闻
2026-01-24 17:42:04
直降1000元,iPhone 17 全系闪降,价格真的猛啊

直降1000元,iPhone 17 全系闪降,价格真的猛啊

科技堡垒
2026-01-24 12:42:31
内蒙古赤峰一70岁老人走失近两天在冰河下被发现,救援队午夜凿破近10厘米冰层捞出遗体

内蒙古赤峰一70岁老人走失近两天在冰河下被发现,救援队午夜凿破近10厘米冰层捞出遗体

极目新闻
2026-01-24 16:17:17
株洲尹明杀猪宴后续:双方各执一词,警方介入,结局让人唏嘘

株洲尹明杀猪宴后续:双方各执一词,警方介入,结局让人唏嘘

阿纂看事
2026-01-23 14:57:24
欧洲议会503票赞成,投票结果一边倒,中方强硬表态

欧洲议会503票赞成,投票结果一边倒,中方强硬表态

军机Talk
2026-01-24 14:07:38
郭包肉 | 首次授衔秘闻:张宗逊为何仅获授上将军衔?

郭包肉 | 首次授衔秘闻:张宗逊为何仅获授上将军衔?

郭包肉八世
2026-01-24 18:12:56
找刺激还是被羞辱?“哄”不回恋情后,19岁女大学生报警 男友涉强奸、强制侮辱罪被起诉

找刺激还是被羞辱?“哄”不回恋情后,19岁女大学生报警 男友涉强奸、强制侮辱罪被起诉

红星新闻
2026-01-24 14:32:32
俄军攻势开始疲软,欧盟拟用7000亿将乌克兰打造为一流军事强国

俄军攻势开始疲软,欧盟拟用7000亿将乌克兰打造为一流军事强国

史政先锋
2026-01-24 20:40:41
军委纪委扩大会释放强烈信号:强军必先强纪刮骨疗毒正当时

军委纪委扩大会释放强烈信号:强军必先强纪刮骨疗毒正当时

寻墨阁
2026-01-20 02:04:17
亚洲杯U23决赛:中国u23vs日本u23 赛事前瞻

亚洲杯U23决赛:中国u23vs日本u23 赛事前瞻

白国华
2026-01-24 17:52:38
梦回朱日和:张又侠挂帅,“多维侦察平台”点亮演兵场!

梦回朱日和:张又侠挂帅,“多维侦察平台”点亮演兵场!

华山穹剑
2025-12-02 20:31:08
2026-01-25 00:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

家居
本地
游戏
健康
旅游

家居要闻

在家度假 160平南洋混搭宅

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

LOL世界冠军转型刀塔,大主播迎直播第二春,人气比玩LOL还高!

耳石脱落为何让人天旋地转+恶心?

旅游要闻

世界旅游休闲中心招牌愈加夺目——2025年澳门入境旅客数据解读

无障碍浏览 进入关怀版