网易首页 > 网易号 > 正文 申请入驻

R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B

0
分享至

来自DeepSeek和清华的一篇新研究《通用奖励模型的推理时扩展》(Inference-Time Scaling for Generalist Reward Modeling)找到强化学习新方法

强化学习(RL)已被广泛应用于大语言模型(LLM)的大规模训练后阶段。近期,通过强化学习来激励LLM推理能力的研究表明,恰当的学习方法能够实现有效的推理时性能扩展(inference-time scalability)。然而,强化学习面临的一个关键挑战是,如何在那些没有明确答案或规则的通用领域中,为LLM获取准确的奖励信号

在这篇论文中,DeepSeek研究了如何针对通用查询,通过增加推理计算量来改进奖励建模(RM)——即实现通用奖励模型(generalist RM)的推理时可扩展性;并进一步探讨了如何通过合适的学习方法,提升性能-计算量扩展(performance-compute scaling)的有效性

在奖励模型方面,研究人员采用了逐点生成式奖励建模(pointwise generative reward modeling, GRM),因为它对不同的输入类型具有灵活性,并具备推理时扩展的潜力。在学习方法上,DeepSeek提出了自洽原则评价微调(Self-Principled Critique Tuning, SPCT):通过在线强化学习来培养GRM中可扩展的奖励生成行为,使其能够自适应地生成评价原则并给出精准的评价,最终形成了DeepSeek-GRM模型

此外,为了实现有效的推理时扩展,使用并行采样来增加计算量使用,并引入了一个元奖励模型(meta RM)来指导投票过程,以获得更好的扩展性能

实验证明,SPCT显著提升了GRM的质量和可扩展性,在多个奖励模型基准测试中表现优于现有方法和模型,且没有引入严重偏见;并且,它能取得比训练时扩展(training-time scaling,即单纯增大模型规模)更好的性能

以下是详细解读

DeepSeek的解法:Pointwise GRM + SPCT + Meta RM

他们提出了一套组合拳:

基础架构:Pointwise Generative Reward Model (GRM)

是什么:这是一种生成式的奖励模型,它不直接输出分数,而是生成评价性的文本(Critique),比如“回答1在逻辑上更清晰,但细节不足...最终得分[[8, 6]]分(满分10)”。分数是从这些文本里提取出来的

为什么选它:因为它天然灵活,既能评判单个回答,也能同时评判多个回答(Pointwise);而且生成的评价文本本身就有多样性,为推理时扩展提供了可能

核心训练方法:Self-Principled Critique Tuning (SPCT)

灵感来源:研究人员发现,如果给奖励模型提供一些好的评价原则(Principles),比如“评分原则1:逻辑连贯性(权重35%);原则2:信息完整性(权重20%)...”,奖励模型的评分质量能显著提升

SPCT怎么做:这是一种结合了拒绝采样微调(Rejective Fine-Tuning, RFT)和基于规则的在线强化学习(Rule-based Online RL的方法

  • RFT (冷启动):先用一些有标注的数据微调GRM,让它学会生成符合格式的原则和评价,并过滤掉明显错误的评价。

  • Online RL (核心):让GRM自己实时生成评价原则和对应的评价文本,然后根据预设规则(比如生成的评价结果是否与真实偏好一致)给予奖励信号,通过RL不断优化GRM,让它学会动态地、针对性地生成高质量的原则和准确的评价。这很关键,模型不再依赖固定的原则,而是学会了“自己思考该怎么评”

推理时扩展策略:并行采样 + 投票/Meta RM

并行采样与投票:推理时,让GRM对同一个问题和若干回答,并行生成k份不同的“原则+评价+分数”。因为每次生成的原则可能不同,评价角度也不同,最后把这k次评分(比如通过简单投票或加总)综合起来,得到一个更鲁棒、更精细的最终奖励。采样次数k越多,相当于考虑的评价维度越丰富,结果越好

Meta RM (裁判的裁判):为了解决并行采样中可能出现的低质量评价干扰结果的问题,他们还训练了一个元奖励模型(Meta RM)。这个Meta RM专门用来判断GRM生成的某一份“原则+评价”的质量高低。在最终投票时,可以用Meta RM筛选掉低质量的评价,或者给高质量的评价更高的权重,进一步提升扩展的效果

效果炸裂:推理扩展 > 训练扩展?

说了这么多,效果如何?

性能超越:基于Gemma-2-27B训练的DeepSeek-GRM-27B,在多个RM基准测试上,显著优于之前的同类方法(包括LLM-as-a-Judge、PairRM等),并且和Nemotron-4-340B、GPT-40这些强大的闭源模型表现相当

推理时扩展性超强

通过增加采样次数k,DeepSeek-GRM的性能持续提升,效果远超其他模型

最惊人的是:在Reward Bench测试集上,DeepSeek-GRM-27B通过推理时扩展(k=32采样+Meta RM引导投票),其性能竟然可以媲美甚至超过DeepSeek自家训练的671B MoE模型的零样本推理性能!这意味着,用增加推理计算量的方式,可以在小模型上达到甚至超越巨大模型的性能,这在成本和效率上意义重大!

偏见更少:相比Scalar或Semi-scalar RM,GRM在不同类型的任务上表现更均衡,偏见更小

SPCT很关键:消融实验证明,SPCT中的原则生成在线RL部分都至关重要。即使没有RFT冷启动,在线RL也能大幅提升性能

给大家用deepseek来个可视化总结

参考:

https://arxiv.org/abs/2504.02495

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月30日起,不用再买墓地!国家为身后事全面松绑

3月30日起,不用再买墓地!国家为身后事全面松绑

另子维爱读史
2026-03-17 22:22:44
陈伟霆何穗婚后首次同框!夜晚手挽手散步,穿情侣羽绒服热聊好甜

陈伟霆何穗婚后首次同框!夜晚手挽手散步,穿情侣羽绒服热聊好甜

小娱乐悠悠
2026-03-18 11:39:54
古巴宣布重大开放!

古巴宣布重大开放!

Nee看
2026-03-17 12:26:57
全国两会后首“虎”任上落马

全国两会后首“虎”任上落马

中国新闻周刊
2026-03-18 12:23:15
姚晨侯雯元恋情风波升级!更多亲密互动被扒,男方发声回应!

姚晨侯雯元恋情风波升级!更多亲密互动被扒,男方发声回应!

古希腊掌管松饼的神
2026-03-18 12:19:20
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
拉里贾尼被“斩首”,细节披露

拉里贾尼被“斩首”,细节披露

中国新闻周刊
2026-03-18 13:59:13
在美国地盘3-2击败美国队!委内瑞拉称霸世界棒球赛 前5届日本3冠

在美国地盘3-2击败美国队!委内瑞拉称霸世界棒球赛 前5届日本3冠

风过乡
2026-03-18 12:37:27
伊朗:拉里贾尼及其子、副手在首都女儿家中遇袭身亡,已为所有关键政府官员和军事指挥官预先指定了3至7名不等的替代人选

伊朗:拉里贾尼及其子、副手在首都女儿家中遇袭身亡,已为所有关键政府官员和军事指挥官预先指定了3至7名不等的替代人选

扬子晚报
2026-03-18 07:08:15
何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

扒点半吃瓜
2026-03-10 07:00:13
四川学生被撞身亡后续!知情人曝猛料,出事不是偶然,恐四方担责

四川学生被撞身亡后续!知情人曝猛料,出事不是偶然,恐四方担责

寒士之言本尊
2026-03-17 23:59:22
微信嗅到了被取代的威胁,QClaw 今天又更新了。

微信嗅到了被取代的威胁,QClaw 今天又更新了。

纯洁的微笑
2026-03-18 11:16:00
拉里贾尼之死,以色列让全世界对和平感到绝望!

拉里贾尼之死,以色列让全世界对和平感到绝望!

胜研集
2026-03-18 09:16:19
投保两年半后确诊患癌遭拒赔,终审胜诉!法院:保险公司对投保询问事项应当范围合理,清楚明确

投保两年半后确诊患癌遭拒赔,终审胜诉!法院:保险公司对投保询问事项应当范围合理,清楚明确

每日经济新闻
2026-03-17 22:54:16
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
罕见反转!半岛电视台承认:美以打伊朗,是按剧本精准放血

罕见反转!半岛电视台承认:美以打伊朗,是按剧本精准放血

老马拉车莫少装
2026-03-17 19:35:44
Meta收购Manus案最新消息:中国被曝正处罚涉案人员?

Meta收购Manus案最新消息:中国被曝正处罚涉案人员?

穿透
2026-03-18 15:09:36
拉里贾尼何以成“斩首”目标?出身于“伊朗版肯尼迪家族”,曾3次竞选总统失败,是最后见到哈梅内伊的人之一,伊朗“事实上的领导人”

拉里贾尼何以成“斩首”目标?出身于“伊朗版肯尼迪家族”,曾3次竞选总统失败,是最后见到哈梅内伊的人之一,伊朗“事实上的领导人”

大象新闻
2026-03-18 14:44:03
上海黄毛爸酒鬼妈辅导作业,开口惊艳全网:真是人不可貌相!

上海黄毛爸酒鬼妈辅导作业,开口惊艳全网:真是人不可貌相!

潮鹿逐梦
2026-03-18 10:40:38
我尊重每一只青蛙,就让他们呆在井底吧

我尊重每一只青蛙,就让他们呆在井底吧

涛哥锐评
2026-03-17 10:53:06
2026-03-18 15:56:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

教育要闻

校地协同育人!武汉文理学院与武湖下畈小学共建实习实训基地

头条要闻

媒体:以方杀拉里贾尼的初衷 就是不能让美国打了就跑

头条要闻

媒体:以方杀拉里贾尼的初衷 就是不能让美国打了就跑

体育要闻

晋级2026世界杯,这届中国女篮啥水平?

娱乐要闻

郑恺苗苗晒全家福 首次公开三胎小女儿

财经要闻

“永不爆雷的宇宙大所”掌门人,自首了

科技要闻

直连微信!腾讯QClaw宣布大规模放量

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

本地
时尚
健康
亲子
公开课

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

它才是今年春天最火的鞋子,时髦又百搭!

转头就晕的耳石症,能开车上班吗?

亲子要闻

欢迎收看20后小孩第一次记录日常,今日份可爱小满请签收~

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版