网易首页 > 网易号 > 正文 申请入驻

R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B

0
分享至

来自DeepSeek和清华的一篇新研究《通用奖励模型的推理时扩展》(Inference-Time Scaling for Generalist Reward Modeling)找到强化学习新方法

强化学习(RL)已被广泛应用于大语言模型(LLM)的大规模训练后阶段。近期,通过强化学习来激励LLM推理能力的研究表明,恰当的学习方法能够实现有效的推理时性能扩展(inference-time scalability)。然而,强化学习面临的一个关键挑战是,如何在那些没有明确答案或规则的通用领域中,为LLM获取准确的奖励信号

在这篇论文中,DeepSeek研究了如何针对通用查询,通过增加推理计算量来改进奖励建模(RM)——即实现通用奖励模型(generalist RM)的推理时可扩展性;并进一步探讨了如何通过合适的学习方法,提升性能-计算量扩展(performance-compute scaling)的有效性

在奖励模型方面,研究人员采用了逐点生成式奖励建模(pointwise generative reward modeling, GRM),因为它对不同的输入类型具有灵活性,并具备推理时扩展的潜力。在学习方法上,DeepSeek提出了自洽原则评价微调(Self-Principled Critique Tuning, SPCT):通过在线强化学习来培养GRM中可扩展的奖励生成行为,使其能够自适应地生成评价原则并给出精准的评价,最终形成了DeepSeek-GRM模型

此外,为了实现有效的推理时扩展,使用并行采样来增加计算量使用,并引入了一个元奖励模型(meta RM)来指导投票过程,以获得更好的扩展性能

实验证明,SPCT显著提升了GRM的质量和可扩展性,在多个奖励模型基准测试中表现优于现有方法和模型,且没有引入严重偏见;并且,它能取得比训练时扩展(training-time scaling,即单纯增大模型规模)更好的性能

以下是详细解读

DeepSeek的解法:Pointwise GRM + SPCT + Meta RM

他们提出了一套组合拳:

基础架构:Pointwise Generative Reward Model (GRM)

是什么:这是一种生成式的奖励模型,它不直接输出分数,而是生成评价性的文本(Critique),比如“回答1在逻辑上更清晰,但细节不足...最终得分[[8, 6]]分(满分10)”。分数是从这些文本里提取出来的

为什么选它:因为它天然灵活,既能评判单个回答,也能同时评判多个回答(Pointwise);而且生成的评价文本本身就有多样性,为推理时扩展提供了可能

核心训练方法:Self-Principled Critique Tuning (SPCT)

灵感来源:研究人员发现,如果给奖励模型提供一些好的评价原则(Principles),比如“评分原则1:逻辑连贯性(权重35%);原则2:信息完整性(权重20%)...”,奖励模型的评分质量能显著提升

SPCT怎么做:这是一种结合了拒绝采样微调(Rejective Fine-Tuning, RFT)和基于规则的在线强化学习(Rule-based Online RL的方法

  • RFT (冷启动):先用一些有标注的数据微调GRM,让它学会生成符合格式的原则和评价,并过滤掉明显错误的评价。

  • Online RL (核心):让GRM自己实时生成评价原则和对应的评价文本,然后根据预设规则(比如生成的评价结果是否与真实偏好一致)给予奖励信号,通过RL不断优化GRM,让它学会动态地、针对性地生成高质量的原则和准确的评价。这很关键,模型不再依赖固定的原则,而是学会了“自己思考该怎么评”

推理时扩展策略:并行采样 + 投票/Meta RM

并行采样与投票:推理时,让GRM对同一个问题和若干回答,并行生成k份不同的“原则+评价+分数”。因为每次生成的原则可能不同,评价角度也不同,最后把这k次评分(比如通过简单投票或加总)综合起来,得到一个更鲁棒、更精细的最终奖励。采样次数k越多,相当于考虑的评价维度越丰富,结果越好

Meta RM (裁判的裁判):为了解决并行采样中可能出现的低质量评价干扰结果的问题,他们还训练了一个元奖励模型(Meta RM)。这个Meta RM专门用来判断GRM生成的某一份“原则+评价”的质量高低。在最终投票时,可以用Meta RM筛选掉低质量的评价,或者给高质量的评价更高的权重,进一步提升扩展的效果

效果炸裂:推理扩展 > 训练扩展?

说了这么多,效果如何?

性能超越:基于Gemma-2-27B训练的DeepSeek-GRM-27B,在多个RM基准测试上,显著优于之前的同类方法(包括LLM-as-a-Judge、PairRM等),并且和Nemotron-4-340B、GPT-40这些强大的闭源模型表现相当

推理时扩展性超强

通过增加采样次数k,DeepSeek-GRM的性能持续提升,效果远超其他模型

最惊人的是:在Reward Bench测试集上,DeepSeek-GRM-27B通过推理时扩展(k=32采样+Meta RM引导投票),其性能竟然可以媲美甚至超过DeepSeek自家训练的671B MoE模型的零样本推理性能!这意味着,用增加推理计算量的方式,可以在小模型上达到甚至超越巨大模型的性能,这在成本和效率上意义重大!

偏见更少:相比Scalar或Semi-scalar RM,GRM在不同类型的任务上表现更均衡,偏见更小

SPCT很关键:消融实验证明,SPCT中的原则生成在线RL部分都至关重要。即使没有RFT冷启动,在线RL也能大幅提升性能

给大家用deepseek来个可视化总结

参考:

https://arxiv.org/abs/2504.02495

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京将迎全市性降雪,除了冻伤和跌倒,这些风险也要防

北京将迎全市性降雪,除了冻伤和跌倒,这些风险也要防

北青网-北京青年报
2026-01-16 20:18:19
女教师群聊“八卦”被拘,起诉公安局被驳回

女教师群聊“八卦”被拘,起诉公安局被驳回

中国新闻周刊
2026-01-15 16:08:17
86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

86岁老人随口乱说代号,儿子上报后,国安领导:马上接通中央部委

知鉴明史
2025-10-23 14:01:49
打完就下单!泰国陆军增购一个连的中国VN-1C型轮式步兵战车

打完就下单!泰国陆军增购一个连的中国VN-1C型轮式步兵战车

军武次位面
2026-01-15 19:02:00
她是好声音最“水”冠军,夺冠一个月后无人问津,如今判若两人

她是好声音最“水”冠军,夺冠一个月后无人问津,如今判若两人

小熊侃史
2026-01-02 09:21:28
李在明刚离开日本,果然不出所料!韩国就喊话中方:最好尽快谈判

李在明刚离开日本,果然不出所料!韩国就喊话中方:最好尽快谈判

霁寒飘雪
2026-01-16 20:02:13
特朗普向全球发出通牒:180天内必须对中国动手,不帮忙就加税

特朗普向全球发出通牒:180天内必须对中国动手,不帮忙就加税

易昂杨
2026-01-16 15:18:11
巴萨曼联开谈买断拉什福德,报价2200万分期!拉师傅逼宫拉爵无奈

巴萨曼联开谈买断拉什福德,报价2200万分期!拉师傅逼宫拉爵无奈

罗米的曼联博客
2026-01-16 10:11:57
一碗鸡蛋羹毒倒一家人?医生警告:鸡蛋尽量别这样吃,比农药还毒

一碗鸡蛋羹毒倒一家人?医生警告:鸡蛋尽量别这样吃,比农药还毒

二大爷观世界
2025-12-25 17:52:11
巩固东部第一!布克伤停活塞16分逆转太阳 狄龙6犯阿伦33分

巩固东部第一!布克伤停活塞16分逆转太阳 狄龙6犯阿伦33分

醉卧浮生
2026-01-16 10:51:51
苹果全新 Pro 预计本月发布!性能超猛

苹果全新 Pro 预计本月发布!性能超猛

花果科技
2026-01-16 22:38:34
修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

快科技
2026-01-16 11:26:47
1955年,韩先楚被列入中将名单,毛主席看后质问到:叫罗荣桓来

1955年,韩先楚被列入中将名单,毛主席看后质问到:叫罗荣桓来

品点历史
2025-10-30 21:24:15
被禁止关注不到24小时,李湘被扒底朝天,高调炫富仅是冰山一角

被禁止关注不到24小时,李湘被扒底朝天,高调炫富仅是冰山一角

有范又有料
2026-01-16 18:22:52
海贼王1172话:乌索普拿下松鼠果实能力,山治营救草帽一伙

海贼王1172话:乌索普拿下松鼠果实能力,山治营救草帽一伙

山治谈动漫
2026-01-17 00:02:46
沉默13天后,国防部第一次证实,大陆实战斩首演练,赖当局签错字

沉默13天后,国防部第一次证实,大陆实战斩首演练,赖当局签错字

时时有聊
2026-01-16 19:18:00
为何很多女性的爱好是潜水滑雪旅游?网友分享很真实,画面感很强

为何很多女性的爱好是潜水滑雪旅游?网友分享很真实,画面感很强

另子维爱读史
2026-01-03 20:47:30
邻家女神!绝佳气质,美到窒息了

邻家女神!绝佳气质,美到窒息了

碧波万览
2026-01-17 00:24:12
院长落马,家中搜出1亿现金

院长落马,家中搜出1亿现金

医疗器械经销商联盟
2026-01-15 11:59:45
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
2026-01-17 01:24:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1027文章数 393关注度
往期回顾 全部

教育要闻

初中三年,最怕“掉队式沉默”

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

教育
艺术
亲子
手机
公开课

教育要闻

寒假指南|你的国美寒假生活一站式指南,请查收!

艺术要闻

180米!上海北外滩新地标,设计藏了3个“小心机”

亲子要闻

精神科医生:家长的“为你好”也可能对孩子造成创伤

手机要闻

真我Power再曝,6.78英寸曲面屏、万级大电池

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版