网易首页 > 网易号 > 正文 申请入驻

R2前奏?DeepSeek联合清华新论文找到强化学习新方法:27B模型“干翻”671B

0
分享至

来自DeepSeek和清华的一篇新研究《通用奖励模型的推理时扩展》(Inference-Time Scaling for Generalist Reward Modeling)找到强化学习新方法

强化学习(RL)已被广泛应用于大语言模型(LLM)的大规模训练后阶段。近期,通过强化学习来激励LLM推理能力的研究表明,恰当的学习方法能够实现有效的推理时性能扩展(inference-time scalability)。然而,强化学习面临的一个关键挑战是,如何在那些没有明确答案或规则的通用领域中,为LLM获取准确的奖励信号

在这篇论文中,DeepSeek研究了如何针对通用查询,通过增加推理计算量来改进奖励建模(RM)——即实现通用奖励模型(generalist RM)的推理时可扩展性;并进一步探讨了如何通过合适的学习方法,提升性能-计算量扩展(performance-compute scaling)的有效性

在奖励模型方面,研究人员采用了逐点生成式奖励建模(pointwise generative reward modeling, GRM),因为它对不同的输入类型具有灵活性,并具备推理时扩展的潜力。在学习方法上,DeepSeek提出了自洽原则评价微调(Self-Principled Critique Tuning, SPCT):通过在线强化学习来培养GRM中可扩展的奖励生成行为,使其能够自适应地生成评价原则并给出精准的评价,最终形成了DeepSeek-GRM模型

此外,为了实现有效的推理时扩展,使用并行采样来增加计算量使用,并引入了一个元奖励模型(meta RM)来指导投票过程,以获得更好的扩展性能

实验证明,SPCT显著提升了GRM的质量和可扩展性,在多个奖励模型基准测试中表现优于现有方法和模型,且没有引入严重偏见;并且,它能取得比训练时扩展(training-time scaling,即单纯增大模型规模)更好的性能

以下是详细解读

DeepSeek的解法:Pointwise GRM + SPCT + Meta RM

他们提出了一套组合拳:

基础架构:Pointwise Generative Reward Model (GRM)

是什么:这是一种生成式的奖励模型,它不直接输出分数,而是生成评价性的文本(Critique),比如“回答1在逻辑上更清晰,但细节不足...最终得分[[8, 6]]分(满分10)”。分数是从这些文本里提取出来的

为什么选它:因为它天然灵活,既能评判单个回答,也能同时评判多个回答(Pointwise);而且生成的评价文本本身就有多样性,为推理时扩展提供了可能

核心训练方法:Self-Principled Critique Tuning (SPCT)

灵感来源:研究人员发现,如果给奖励模型提供一些好的评价原则(Principles),比如“评分原则1:逻辑连贯性(权重35%);原则2:信息完整性(权重20%)...”,奖励模型的评分质量能显著提升

SPCT怎么做:这是一种结合了拒绝采样微调(Rejective Fine-Tuning, RFT)和基于规则的在线强化学习(Rule-based Online RL的方法

  • RFT (冷启动):先用一些有标注的数据微调GRM,让它学会生成符合格式的原则和评价,并过滤掉明显错误的评价。

  • Online RL (核心):让GRM自己实时生成评价原则和对应的评价文本,然后根据预设规则(比如生成的评价结果是否与真实偏好一致)给予奖励信号,通过RL不断优化GRM,让它学会动态地、针对性地生成高质量的原则和准确的评价。这很关键,模型不再依赖固定的原则,而是学会了“自己思考该怎么评”

推理时扩展策略:并行采样 + 投票/Meta RM

并行采样与投票:推理时,让GRM对同一个问题和若干回答,并行生成k份不同的“原则+评价+分数”。因为每次生成的原则可能不同,评价角度也不同,最后把这k次评分(比如通过简单投票或加总)综合起来,得到一个更鲁棒、更精细的最终奖励。采样次数k越多,相当于考虑的评价维度越丰富,结果越好

Meta RM (裁判的裁判):为了解决并行采样中可能出现的低质量评价干扰结果的问题,他们还训练了一个元奖励模型(Meta RM)。这个Meta RM专门用来判断GRM生成的某一份“原则+评价”的质量高低。在最终投票时,可以用Meta RM筛选掉低质量的评价,或者给高质量的评价更高的权重,进一步提升扩展的效果

效果炸裂:推理扩展 > 训练扩展?

说了这么多,效果如何?

性能超越:基于Gemma-2-27B训练的DeepSeek-GRM-27B,在多个RM基准测试上,显著优于之前的同类方法(包括LLM-as-a-Judge、PairRM等),并且和Nemotron-4-340B、GPT-40这些强大的闭源模型表现相当

推理时扩展性超强

通过增加采样次数k,DeepSeek-GRM的性能持续提升,效果远超其他模型

最惊人的是:在Reward Bench测试集上,DeepSeek-GRM-27B通过推理时扩展(k=32采样+Meta RM引导投票),其性能竟然可以媲美甚至超过DeepSeek自家训练的671B MoE模型的零样本推理性能!这意味着,用增加推理计算量的方式,可以在小模型上达到甚至超越巨大模型的性能,这在成本和效率上意义重大!

偏见更少:相比Scalar或Semi-scalar RM,GRM在不同类型的任务上表现更均衡,偏见更小

SPCT很关键:消融实验证明,SPCT中的原则生成在线RL部分都至关重要。即使没有RFT冷启动,在线RL也能大幅提升性能

给大家用deepseek来个可视化总结

参考:

https://arxiv.org/abs/2504.02495

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别被误导了!根本没有“农民养老金”,农村老人领的钱其实是这个

别被误导了!根本没有“农民养老金”,农村老人领的钱其实是这个

三农雷哥
2026-03-18 14:38:12
金价失守4600美元 国内多家银行紧急收紧个人贵金属业务

金价失守4600美元 国内多家银行紧急收紧个人贵金属业务

环球网资讯
2026-03-20 10:43:07
这么多伊朗二代在美国,拉里贾尼的女儿已回国!克宫强烈反对斩首

这么多伊朗二代在美国,拉里贾尼的女儿已回国!克宫强烈反对斩首

鹰眼Defence
2026-03-20 18:13:40
“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

蝴蝶花雨话教育
2026-02-08 12:47:42
中国科学院最新:咖啡降糖效果竟超常用降糖药3倍,6种新型活性成份成降糖“黑马”

中国科学院最新:咖啡降糖效果竟超常用降糖药3倍,6种新型活性成份成降糖“黑马”

梅斯医学
2026-03-20 07:55:59
中国躲过一场能源危机

中国躲过一场能源危机

米果说识
2026-03-20 17:05:28
美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

美国赌中国不敢打日本,而中国则在赌美国不会在关键时候帮助日本

安安说
2026-03-21 10:56:42
这是我见过穿旗袍最美的女人,成熟丰腴,非常干净

这是我见过穿旗袍最美的女人,成熟丰腴,非常干净

草莓解说体育
2026-03-21 10:58:17
沉睡两千万载,三门峡发现大型油田,背后功臣竟是一口寻常地热井

沉睡两千万载,三门峡发现大型油田,背后功臣竟是一口寻常地热井

离开地球a
2026-03-21 07:02:35
抄底黄金的人,已经抄崩溃了!

抄底黄金的人,已经抄崩溃了!

樱桃大房子
2026-03-20 21:25:45
悲催!阜阳95万买的房51万卖,一网友称后悔2021年还有人出135万

悲催!阜阳95万买的房51万卖,一网友称后悔2021年还有人出135万

火山詩话
2026-03-21 07:20:13
官宣退役不到2年,易建联近况曝光,再次印证了姚明的那句评价

官宣退役不到2年,易建联近况曝光,再次印证了姚明的那句评价

削桐作琴
2026-03-20 17:11:29
22:00启动暴跌,世界在交易最坏情况

22:00启动暴跌,世界在交易最坏情况

新浪财经
2026-03-21 06:31:47
伊朗揪出81名内鬼,给中国敲响警钟,国安立即行动,果然抓到大鱼

伊朗揪出81名内鬼,给中国敲响警钟,国安立即行动,果然抓到大鱼

风眼军情
2026-03-19 20:04:48
姚安娜穿“浮光锦”走红毯,网友:3000个蚕茧织一米,1米一万多

姚安娜穿“浮光锦”走红毯,网友:3000个蚕茧织一米,1米一万多

丫头舫
2026-03-19 13:17:50
深圳一山姆猪肉被曝是去年屠宰,解冻后当冷鲜肉销售,溯源信息已不可见

深圳一山姆猪肉被曝是去年屠宰,解冻后当冷鲜肉销售,溯源信息已不可见

海峡网
2026-03-20 18:28:37
火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

吴学华看天下
2024-06-26 12:43:21
胡衡华被查,今年已有4名正部级官员落马

胡衡华被查,今年已有4名正部级官员落马

大风新闻
2026-03-20 17:33:03
Nature重磅:哈佛学者发现这个免疫器官越健康,寿命越长

Nature重磅:哈佛学者发现这个免疫器官越健康,寿命越长

iNature前沿
2026-03-20 11:36:58
英媒:特朗普本来不想打仗,但他女婿库什纳是以色列的“线人”

英媒:特朗普本来不想打仗,但他女婿库什纳是以色列的“线人”

墨羽怪谈
2026-03-21 09:46:37
2026-03-21 11:43:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 0关注度
往期回顾 全部

教育要闻

2026北京青年政治学院自主招生扩招|630人招生计划,3月22日启动报名

头条要闻

环球:对华关系上 高市欲表现"弱势"形象博取美国同情

头条要闻

环球:对华关系上 高市欲表现"弱势"形象博取美国同情

体育要闻

谁在决定字母哥未来?

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

通胀警报拉响,加息潮要来了?

科技要闻

宇树招股书拆解,人形机器人出货量第一!

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

本地
手机
时尚
艺术
军事航空

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

手机要闻

OPPO K15 Pro真机亮相,4月即将登场!

推广中奖名单-更新至2026年3月4日推广

艺术要闻

第四届深圳大芬国际油画双年展 | 国际入选油画选刊(二)

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版