网易首页 > 网易号 > 正文 申请入驻

DeepSeek新论文提新训练方法SPCT,R2要来了?

0
分享至

作者|沐风

来源|AI先锋官

近日,DeepSeek和清华大学共同发表了一篇论文《Inference-Time Scaling for Generalist Reward Modeling》,探讨了奖励模型的推理时Scaling方法。

现在,强化学习(RL)已广泛应用于LLM的大规模后训练阶段。

简单说,就是先训练一个奖励模型 (Reward Model, RM) 来模仿人类对 LLM 输出的偏好(比如判断哪个回答更好,或者给回答打分),然后用这个RM作为“奖励信号”去指导 LLM 的进一步学习,让LLM生成更符合人类期望的内容。

但现有的RM在通用领域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。

因此,就出现了两个关键挑战点。

一个是通用RM需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励)。

另一个则是现有RM(如标量RM、半标量RM)在推理时扩展性差,无法通过增加计算资源显著提升性能。

是否有可能通过增加推理计算资源,来提升通用查询场景下RM的能力,即通用RM在推理阶段的可扩展性呢?

DeepSeek和清华的研究者发现,在RM方法上采用点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),就能提升模型对不同输入类型的灵活适应能力,并具备推理阶段可扩展的潜力。

对此,这篇论文提出了一种新的训练方法“SPCT”(Self-Principled Critique Tuning),可以理解为“自定原则、自我点评”的调优方法。

SPCT 主要用在GRM上,通过在线强化学习(RL)训练GRM,使其能动态生成高质量的原则(principles)和点评(critiques),从而提升奖励质量。

SPCT的核心思想是: GRM先评估应该看重哪些“原则” (Principles),然后再根据这些刚定好的原则去写一段“点评”(Critique),最后再从点评中提炼出分数。

简单来说,SPCT就是把RM的工作流程从“直接给分”变成了“定原则-写点评-提分数”的间接评估。

整体来看,SPCT包括两个阶段,它们分别是:

拒绝式微调(rejective fine-tuning)作为冷启动阶段,通过采样和拒绝策略生成初始数据。

基于规则的在线RL,通过提升生成的原则和点评内容来强化通用奖励的生成过程。

另外,SPCT还可以促进GRM在推理阶段的可扩展行为。

他们基于Gemma-2-27B经过SPCT训练后推出了DeepSeek-GRM-27B。

可以发现,SPCT显著提高了GRM的质量和可扩展性,在多个综合RM基准测试中优于现有方法和模型。

强制模型先想原则再点评,评估结果自然更准确、更可靠。

另外,他们还引入一个元奖励模型(Meta RM),专门评估每次采样生成的 (原则, 点评) 的质量,以提升扩展性能。

SPCT的另外一个核心亮点是“越算越准”。

对同一个问题和回答,让模型独立地、带点随机性地(比如 temperature > 0)思考 k 次。因为想法(生成过程)有多样性,每次可能会得到不同的原则、点评和分数。

论文里的实验结果清楚地显示,随着采样次数 k 增加,不管是Voting还是Meta RM,DeepSeek-GRM 的性能都会往上涨,证明了它确实能有效地“越算越准”。

总的来说,SPCT 是个挺有创意的 GRM 训练方法。它通过让模型学会“先定规则、再点评打分”的模式,实打实地提升了奖励模型的准确性、透明度、灵活性和通用性。

最关键的是,它训练出的GRM具备了出色的推理时可扩展性,可以通过多花算力来换取更高的评估质量。

论文也提到,未来可以继续优化 GRM 的效率,或者让它学会使用工具来处理更复杂的评估任务。

论文地址:

https://arxiv.org/pdf/2504.02495

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇家马德里中场大将后悔做出手术决定

皇家马德里中场大将后悔做出手术决定

本泽体育
2026-03-29 08:51:36
抱紧美日大腿,停飞中国航班、拒绝中国游客的小国,如今怎样了?

抱紧美日大腿,停飞中国航班、拒绝中国游客的小国,如今怎样了?

兴史兴谈
2026-03-28 12:37:56
小学生入学年龄将调整?9月1日起幼儿园入学年龄有新变化

小学生入学年龄将调整?9月1日起幼儿园入学年龄有新变化

一口娱乐
2026-03-29 04:00:36
大陆放话:不管台湾当局点不点头,厦金大桥照建不误,直达金门

大陆放话:不管台湾当局点不点头,厦金大桥照建不误,直达金门

史智文道
2026-03-28 11:42:35
狂飙逆袭!马刺狂胜 32 分锁定西部前二,湖人彻底无缘第二

狂飙逆袭!马刺狂胜 32 分锁定西部前二,湖人彻底无缘第二

林子说事
2026-03-29 09:16:56
2小时闭门激战!心腹当场倒戈?马英九急撤杀招,蓝营内斗迎3结局

2小时闭门激战!心腹当场倒戈?马英九急撤杀招,蓝营内斗迎3结局

杰丝聊古今
2026-03-29 00:06:40
在古代,为什么不通过下毒来杀掉皇帝?溥仪:压根没吃过一顿热饭

在古代,为什么不通过下毒来杀掉皇帝?溥仪:压根没吃过一顿热饭

史之铭
2026-03-27 17:08:27
台北101大厦董事长贾永婕将代表民进党选台北市?

台北101大厦董事长贾永婕将代表民进党选台北市?

总在茶余后
2026-03-29 00:30:01
彻底重建!火记:火箭下赛季只留4人,其他人都得走

彻底重建!火记:火箭下赛季只留4人,其他人都得走

体育见习官
2026-03-29 11:46:28
程潇不愧是“奶潇”

程潇不愧是“奶潇”

情感大头说说
2026-03-16 00:19:50
21岁女生恋爱脑,打两份工养"帅气主播男友"!同居后发生的一切,不堪回首……

21岁女生恋爱脑,打两份工养"帅气主播男友"!同居后发生的一切,不堪回首……

环球网资讯
2026-03-29 12:37:21
杰拉德谈当外公:现在有理由承认自己老了,我外孙女简直是小天使

杰拉德谈当外公:现在有理由承认自己老了,我外孙女简直是小天使

科学发掘
2026-03-29 08:49:01
萧敬腾与林有慧巴塞罗那街头被偶遇,素颜状态真实,年龄差藏不住

萧敬腾与林有慧巴塞罗那街头被偶遇,素颜状态真实,年龄差藏不住

暖心萌阿菇凉
2026-03-29 09:13:41
鲁尼:以目前的表现来看,英格兰10号更应该属于摩根-罗杰斯

鲁尼:以目前的表现来看,英格兰10号更应该属于摩根-罗杰斯

懂球帝
2026-03-29 10:30:46
他们两个不会偷偷的在一起了吧,确实他们挺合适的男才女貌

他们两个不会偷偷的在一起了吧,确实他们挺合适的男才女貌

可乐谈情感
2026-03-27 16:53:38
地面战打响!以色列,惨败破防了!

地面战打响!以色列,惨败破防了!

大嘴说天下
2026-03-27 19:40:27
罗德里戈前女友官宣恋情,新男友是矿工球员考阿-埃利亚斯

罗德里戈前女友官宣恋情,新男友是矿工球员考阿-埃利亚斯

懂球帝
2026-03-29 09:18:13
伊朗封锁海峡,川普拿捏能源买家和卖家达到顶点,差不多才会解决

伊朗封锁海峡,川普拿捏能源买家和卖家达到顶点,差不多才会解决

邵旭峰域
2026-03-28 16:00:03
A股,下周,两个重要消息落地,明天,周一或将迎来转变?

A股,下周,两个重要消息落地,明天,周一或将迎来转变?

明心
2026-03-29 11:39:02
必须给中国个交代,解放军重磅发声,航母随时前出,休想蒙混过关

必须给中国个交代,解放军重磅发声,航母随时前出,休想蒙混过关

李博世财经
2026-03-29 10:12:42
2026-03-29 14:56:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
466文章数 69关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

网约车司机被骗网贷后车内轻生:我不想死 但扛不住了

头条要闻

网约车司机被骗网贷后车内轻生:我不想死 但扛不住了

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

房产
艺术
游戏
旅游
数码

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

艺术要闻

2025江南如画——中国油画作品展 | 入选作品选刊(二)

《428~被封锁的涩谷~》主创新作众筹5400万日元 被平台扣下一半

旅游要闻

四川的山有何特别之处?三位百万粉丝博主畅聊“一城一山”:“山水藏烟火 四季皆风光”

数码要闻

TCL空调广州工厂投产 年内预计实现30亿元产值

无障碍浏览 进入关怀版