网易首页 > 网易号 > 正文 申请入驻

DeepSeek新论文提新训练方法SPCT,R2要来了?

0
分享至

作者|沐风

来源|AI先锋官

近日,DeepSeek和清华大学共同发表了一篇论文《Inference-Time Scaling for Generalist Reward Modeling》,探讨了奖励模型的推理时Scaling方法。

现在,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。

简单说,就是先训练一个奖励模型 (Reward Model, RM) 来模仿人类对 LLM 输出的偏好(比如判断哪个回答更好,或者给回答打分),然后用这个RM作为“奖励信号”去指导 LLM 的进一步学习,让LLM生成更符合人类期望的内容。

但现有的RM在通用领域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。

因此,就出现了两个关键挑战点。

一个是通用RM需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励)。

另一个则是现有RM(如标量RM、半标量RM)在推理时扩展性差,无法通过增加计算资源显著提升性能。

是否有可能通过增加推理计算资源,来提升通用查询场景下RM的能力,即通用RM在推理阶段的可扩展性呢?

DeepSeek和清华的研究者发现,在RM方法上采用点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),就能提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。

对此,这篇论文提出了一种新的训练方法“SPCT”(Self-Principled Critique Tuning),可以理解为“自定原则、自我点评”的调优方法。

SPCT 主要用在GRM上,通过在线强化学习(RL)训练GRM,使其能动态生成高质量的原则(principles)和点评(critiques),从而提升奖励质量。

SPCT的核心思想是: GRM先评估应该看重哪些“原则” (Principles),然后再根据这些刚定好的原则去写一段“点评”(Critique),最后再从点评中提炼出分数。

简单来说,SPCT就是把RM的工作流程从“直接给分”变成了“定原则-写点评-提分数”的间接评估。

整体来看,SPCT包括两个阶段,它们分别是:

拒绝式微调(rejective fine-tuning)作为冷启动阶段,通过采样和拒绝策略生成初始数据。

基于规则的在线RL,通过提升生成的原则和点评内容来强化通用奖励的生成过程。

另外,SPCT还可以促进GRM在推理阶段的可扩展行为。

他们基于Gemma-2-27B经过SPCT训练后推出了DeepSeek-GRM-27B。

可以发现,SPCT显著提高了GRM的质量和可扩展性,在多个综合RM基准测试中优于现有方法和模型。

强制模型先想原则再点评,评估结果自然更准确、更可靠。

另外,他们还引入一个元奖励模型(Meta RM),专门评估每次采样生成的 (原则, 点评) 的质量,以提升扩展性能。

SPCT的另外一个核心亮点是“越算越准”。

对同一个问题和回答,让模型独立地、带点随机性地(比如 temperature > 0)思考 k 次。因为想法(生成过程)有多样性,每次可能会得到不同的原则、点评和分数。

论文里的实验结果清楚地显示,随着采样次数 k 增加,不管是Voting还是Meta RM,DeepSeek-GRM 的性能都会往上涨,证明了它确实能有效地“越算越准”。

总的来说,SPCT 是个挺有创意的 GRM 训练方法。它通过让模型学会“先定规则、再点评打分”的模式,实打实地提升了奖励模型的准确性、透明度、灵活性和通用性。

最关键的是,它训练出的GRM具备了出色的推理时可扩展性,可以通过多花算力来换取更高的评估质量。

论文也提到,未来可以继续优化 GRM 的效率,或者让它学会使用工具来处理更复杂的评估任务。

论文地址:

https://arxiv.org/pdf/2504.02495

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冲上热搜!今年蚊子可能迎来史诗级加强?网友:遭不住了

冲上热搜!今年蚊子可能迎来史诗级加强?网友:遭不住了

深圳晚报
2026-03-28 22:25:02
梁咏琪和双胞胎弟弟一起过50岁生日,晒两人童年和50岁对比照,网友:这么好看的脸,他家居然有俩

梁咏琪和双胞胎弟弟一起过50岁生日,晒两人童年和50岁对比照,网友:这么好看的脸,他家居然有俩

台州交通广播
2026-03-29 10:07:08
李荣浩发长文公开喊话单依纯:在婉拒翻唱授权情况下,演唱会强行侵权演唱《李白》;其在《歌手》中翻唱导致他被调侃

李荣浩发长文公开喊话单依纯:在婉拒翻唱授权情况下,演唱会强行侵权演唱《李白》;其在《歌手》中翻唱导致他被调侃

极目新闻
2026-03-29 15:16:06
女足亚冠巨大争议!邓梦晔进球被吹,主裁遭炮轰:99%误判

女足亚冠巨大争议!邓梦晔进球被吹,主裁遭炮轰:99%误判

奥拜尔
2026-03-29 19:27:15
向华强谈张雪峰突然离世,直言其饮食不健康,重油重盐有大问题

向华强谈张雪峰突然离世,直言其饮食不健康,重油重盐有大问题

娱乐E君
2026-03-27 12:47:59
大陆定性赖清德后,郑丽文当众爆料,民进党瞒着2300万台胞的真相

大陆定性赖清德后,郑丽文当众爆料,民进党瞒着2300万台胞的真相

知法而形
2026-03-29 19:03:17
女子家门未关严,流浪狗尾随入室咬伤其腿,3天后狗死了,狂犬病毒检测呈阳性;多方回应事件进展

女子家门未关严,流浪狗尾随入室咬伤其腿,3天后狗死了,狂犬病毒检测呈阳性;多方回应事件进展

大风新闻
2026-03-29 13:28:09
“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

都市快报橙柿互动
2026-03-29 12:26:05
两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

离离言几许
2026-03-28 16:40:22
“凭什么判我死刑!”泰安入室抢婴案庭审现场,主犯当庭破口大骂!

“凭什么判我死刑!”泰安入室抢婴案庭审现场,主犯当庭破口大骂!

极目新闻
2026-03-29 15:16:06
印度发出最后警告:化肥不放行或致饥荒,14亿人饭碗成危机

印度发出最后警告:化肥不放行或致饥荒,14亿人饭碗成危机

阿伧说事
2026-03-29 17:44:45
好变态!1090投1000中!92%的命中率炸裂了!!

好变态!1090投1000中!92%的命中率炸裂了!!

柚子说球
2026-03-29 17:52:30
魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

魂归故里,长眠桑梓!张雪峰安葬地选址原因披露

史海流年号
2026-03-29 12:14:27
为啥越来越多人开始怀疑学历?上世纪70年代的诺奖论文早就说清了

为啥越来越多人开始怀疑学历?上世纪70年代的诺奖论文早就说清了

知识圈
2026-03-29 13:10:14
心源性猝死来势汹汹!呼吁:每家备好6样东西,关键时刻能救命!

心源性猝死来势汹汹!呼吁:每家备好6样东西,关键时刻能救命!

阿兵科普
2026-03-28 20:08:11
新华时评 | 应尽快按下战争的“停止键”

新华时评 | 应尽快按下战争的“停止键”

新华社
2026-03-29 17:23:04
俄警告韩国勿向乌提供致命性武器

俄警告韩国勿向乌提供致命性武器

财联社
2026-03-29 09:30:26
人民日报也发了粉底液将军,居然有粉丝去冲人民日报,劝都劝不住

人民日报也发了粉底液将军,居然有粉丝去冲人民日报,劝都劝不住

芊手若
2026-03-29 04:06:34
歌手吴向飞喊话李荣浩道歉:未取得授权公开演唱其歌曲;李荣浩回应:并未在个人演唱会或音乐节晚会唱过,请列明场次,若侵权一定赔偿道歉

歌手吴向飞喊话李荣浩道歉:未取得授权公开演唱其歌曲;李荣浩回应:并未在个人演唱会或音乐节晚会唱过,请列明场次,若侵权一定赔偿道歉

极目新闻
2026-03-29 18:56:41
德研究报告:中国工业数字化水平全球领先

德研究报告:中国工业数字化水平全球领先

新华社
2026-03-29 10:48:03
2026-03-29 21:19:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
466文章数 69关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

房产
本地
数码
手机
公开课

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

数码要闻

用户称M5 Max MacBook Pro在运行AI工作负载时固态硬盘温度失控

手机要闻

曝华为畅享90系列手机独占智感畅行情景模式,支持智能路况提醒

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版